Win 


l 计 算 机 科 学 A 书 


华章 教育 


Pearson 


TCP/IP Ef 
#51: 协议 


[Æ] 凯 文 R. 福 尔 (Kevin R. Fal) W. 理 查 德 。 史 蒂 文 斯 (W. Richard Stevens) 著 
吴 英 TI PERLE 译 


吴 功 宜 审 校 


TCP/IP lllustrated 


Volume |: The Protocols Second Edition 


| 1 


U1 betes 


Volu pal 


: EVR 
Vanni Bditinn 





*) 机 械 工 业 出 版 社 


China Machine Press 


















































































































































































































































































































































































































































































































































图 书 在 版 编目 (CIP) 数据 


TCP/IP 详解 卷 1: 协议 ( 原 书 第 2 版 ) /( 美 ) 福 尔 (Fall, K. R.)，( 美 ) 史 蒂 文 斯 (Stevens, 
W. R.) #; RR, KE, ASE. 一 北京 : 机 械 工业 出 版 社 ，2016.6 
(计算 机 科学 丛书 ) 

书 名 原文 : TCP/IP Illustrated, Volume 1: The Protocols, Second Edition 





ISBN _978-7=111-45383=3 


L Te I. OF Ote OR Os Ove TL 计算 机 网 络 ~ 通信 协议 
IV. TN915.04 


中 国 版 本 图 书馆 CIP 数据 核 字 ( 2016) 第 109829 号 
本 书 版 权 登 记号 : AF: 01-2012-1000 











Authorized translation from the English language edition, entitled TCP/IP Illustrated, 
Volume 1: The Protocols, 2E, 9780321336316 by Kevin R. Fall, W. Richard Stevens, published 
by Pearson Education, Inc., Copyright © 2012. 

All rights reserved. No part of this book may be reproduced or transmitted in any form 
or by any means, electronic or mechanical, including photocopying, recording or by any 
information storage retrieval system, without permission from Pearson Education, Inc. 

Chinese simplified language edition published by Pearson Education Asia Ltd., and 
China Machine Press Copyright © 2016. 

本 书 中 文 简体 字 版 由 Pearson Education ( 培 生 教育 出 版 集团 ) 授权 机 械 工 业 出 版 社 在 中 华人 民 共 
和 国境 内 (不 包括 中 国人 台湾 地 区 和 中 国 香港 、 澳 门 特别 行政 区 ) 独家 出 版 发 行 。 未 经 出 版 者 书面 许可 ， 
不 得 以 任何 方式 抄袭 、 复 制 或 节录 本 书 中 的 任何 部 分 。 

本 书 封底 贴 有 Pearson Education ( 培 生 教育 出 版 集团 ) 激光 防伪 标签 ， 无 标签 者 不 得 销售 。 


已 故 专家 W. Richard Stevens 的 《 TCP/IP 详解 》 是 一 部 经 典 之 作 ! 第 1 版 自 1994 年 出 版 以 来 
深 受 读者 欢迎 ， 但 其 内 容 有 些 已 经 陈旧 ， 而 且 没 有 涉及 IPv6。 现 在 ， 这 部 世界 领先 的 TCP/IP 畅销 书 
已 由 网 络 顶 级 专家 Kevin R. Fall 博士 彻底 更 新 ， 反映 了 新 一 代 基 于 TCP/IP 的 网 络 技术 。 本 书 主 要 讲 
R TCP/IP 协议 ， 展示 每 种 协议 的 实际 工作 原理 的 同时 还 解释 了 其 来 龙 去 脉 ,新 增 了 RPC、 访 问 控制 、 
身份 认证 、 隐 私 保护 、NFS、SMB/CIFS、DHCP、NAT、 防 火 墙 、 电 子 邮 件 、Web、Web 服务 、 无 线 、 
无 线 安全 等 内 容 ， 每 章 最 后 还 描述 了 针对 协议 的 攻击 方法 ， 帮 助 读 者 轻松 掌握 领域 知识 。 

本 书 内 容 丰 富 、 概 念 清晰 、 论 述 详 尽 ， 适 合 任何 希望 理解 TCP/IP 协议 实现 的 人 阅读 ， 更 是 TCP/IP 
领域 研究 人 员 和 开发 人 员 的 权威 参考 书 。 无 论 是 初学 者 还 是 功底 深厚 的 网 络 领域 高 手 ， 本 书 都 是 案头 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 遵 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢 迎 老 师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010 ) 88379604 证 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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21 世纪 的 一 个 重要 特征 是 数字 化 、 网 络 化 与 信息 化 ， 支 撑 这 一 切 的 正 是 功能 日 益 强 大 
的 计算 机 网 络 。 目 前 ， 计 算 机 网 络 已 成 为 支撑 现代 社会 运行 的 基础 设施 ， 并 成 为 影响 社会 的 
政治 、 经 济 、 科 学 与 文化 发 展 的 重要 因素 。 

我 们 知道 ，TCP/P 已 成 为 计算 机 网 络 事实 上 的 标准 。 在 关于 TCP/IP 的 著作 中 ， 最 有 影 
响 的 著作 之 一 就 是 W. Richard Stevens 著 的 《TCP/IP 详解 卷 1: 协议 》 本 书 第 2 版 由 Kevin 
R. Fall 在 原著 的 基础 上 修订 而 成 。 

本 书 的 特点 是 内 容 丰 富 ， 概 念 清晰 ， 论 述 详细 ， 图 文 并 茂 。 本 书 每 章 开头 都 有 一 个 引 
言 ， 然 后 对 某 个 技术 或 协议 进行 详细 介绍 ， 最 后 给 出 相关 的 安全 问题 、 总 结 与 参考 文献 。 本 
书 通过 很 多 例子 来 说 明 问 题 ， 并 在 最 后 给 出 了 书 中 用 到 的 缩 略语 ， 这 对 读者 了 解 相 关 术 语 有 
很 大 的 帮助 。 

本 书 的 前 言 、 第 1 ~ 6 章 和 缩 略语 由 吴 英 翻译 ， 第 7 ~ 12 章 由 张 玉 翻 译 , 第 13 ~ 18 
章 由 许 昱 玮 翻译 ,全书 由 吴 功 宜 教 授 审 校 。 我 们 在 翻译 过 程 中 尽 可 能 尊重 原著 的 思想 ,但 是 
限于 译 者 的 学 识 ， 书 中 难免 存在 朴 漏 和 理解 错误 之 处 ， 敬 请 读者 指正 。 


译 者 
2016 年 1 月 
于 南开 大 学 计算 机 与 控制 工程 学 院 
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“这 本 书 肯定 能 成 为 TCP/IP 开发 人 员 和 用 户 的 权威 指南 。 在 我 随手 翻阅 的 短 短 几 分 钟 
内 ， 我 就 看 到 了 过 去 曾 困扰 我 和 同事 的 几 个 问题 。Stevens 揭 开 了 很 多 曾经 只 有 网 络 专家 才 
能 领会 的 奥秘 。 作 为 一 名 多 年 从 事 TCP/IP 开发 的 技术 人 员 ， 我 认为 这 是 迄今 为 止 最 好 的 一 
本 书 。” 
一 一 Robert A. Ciampa，3COM 公司 Synernetics 部 网 络 工程 师 


“ Stevens 所 有 的 书 都 具有 很 强 的 可 读 性 和 技术 性 ， 这 本 书 尤 其 如 此 。 尽 管 已 经 有 很 多 描 
述 TCP/IP 协议 的 书 问世 ， 但 Stevens 在 书 中 提供 了 别人 没有 的 深度 和 实现 细节 。 他 采用 可 视 
化 方法 使 读者 深入 TCP/IP 内 部 ， 以 便 了 解 该 协议 是 如 何 工 作 的 。” 
Steven Baker,《 Unix 评论 》 网 络 专栏 作者 





“对 于 开发 人 员 、 网 络 管理 员 以 及 其 他 需要 理解 TCP/IP 技术 的 人 来 说 ， 本 书 是 一 本 优 
秀 的 参考 书 。 它 覆盖 面 广泛 ， 涉 及 TCP/IP 各 方面 的 主题 。 对 专家 来 说 ， 它 提供 足够 的 细节 ; 
对 于 初学 者 来 说 ， 它 给 出 详细 的 背景 和 注释 。 

一 一 Bob Williams, NetManage 公司 市 场 部 副 总 监 


“senees 区 别 在 于 Stevens 不 仅 希 望 给 出 协议 的 描述 ， 而 且 还 对 它们 进行 解释 。 他 的 主要 教 
学 方法 是 直接 阐述 ， 并 逐个 字 节 地 给 出 头 部 中 的 各 字段 以 及 类 似 的 内 容 ， 男 外 还 给 出 了 真实 
的 通信 例子 。” 
一 一 Walter Zintz,《 Unix 世界 》 


“ 比 纯 理 论 要 好 得 多 ……: W. Richard Stevens 将 基于 多 主机 的 配置 作为 解释 TCP/IP 的 例 
子 。 本 书 根据 实例 来 描述 理论 ， 使 得 该 书 和 其 他 相关 主题 的 书 有 所 区 别 ， 不 但 可 读 性 强 ， 而 
且 信 息 量 大 。” 
一 一 Peter M. Haverlock，IBM 公司 TCP/IP 开发 部 顾问 


“他 使 用 的 图 表 都 很 好 ， 写 作风 格 清晰 易 懂 。 总 的 来 说 ，Stevens 使 一 个 复杂 的 问题 变 得 
容易 理解 。 这 本 书 值得 每 个 人 关注 。 本 书 值得 阅读 和 收藏 。” 
Elizabeth Zinkann， 系 统管 理 员 





“ W. Richard Stevens 写 了 一 本 优秀 的 教材 和 参考 书 。 这 本 书 组 织 结构 良好 ， 文 笔 清 
新 ， 提 供 了 很 多 好 的 例子 来 详细 解释 IF、TCP， 以 及 支撑 协议 和 应 用 程序 的 内 部 人 逻辑 与 操作 
细节 。” 





Scott Bradner， 哈 佛 大 学 OIT/NSD 顾问 
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读者 很 少 能 找到 这 样 一 本 历史 和 技术 全 面 且 非常 准确 地 讨论 众所周知 主题 的 书籍 。 我 佩 
服 这 项 工作 的 原因 之 一 是 它 给 出 的 方案 都 让 人 信服 。TCP/IP 体系 结构 在 构思 时 就 是 一 个 产 
品 。 在 适应 多 方面 呈 百 万 倍 或 以 上 不 断 增 长 的 需求 ， 更 不 用 说 大 量 的 应 用 程序 方面 ， 它 是 非 
凡 的 。 理 解体 系 结构 的 范围 和 局 限 性 以 及 它 的 协议 ， 可 以 为 思考 未 来 的 演变 甚至 革命 商定 良 
好 的 基础 。 

在 早期 互联 网 体系 结构 的 制定 中 ,“ 企 业 ” 的 概念 并 没有 被 真正 认识 。 因 此 ， 大 多 数 网 
络 都 有 自己 的 IP 地址 空间 ， 并 在 路 由 系统 中 直接 “公布 ”自己 的 地 址 。 在 商业 服务 被 引入 
Z, Internet 服务 提供 商 像 中 介 那 样 “ 公 布 ” 自 己 客户 的 Internet 地 址 块 。 因 此 ， 大 多 数 的 
地 址 空间 被 分 配 为 “提供 商 依 赖 ” 方 式 。“ 提 供 商 独 立 ” 编 址 很 少见 。 这 种 网 络 导致 路 由 汇 
聚 和 全 球 路 由 表 大 小 的 限制 。 虽 然 这 种 方式 有 好 处 ,但 它 也 带 来 了 “多 归属 ”问题 ,这 是 由 
于 用 户 的 提供 商 依赖 地 址 在 全 球 路 由 表 中 没有 自己 的 条 目 。IP 地 址 “短缺 ”也 导致 了 网 络 地 
址 转换 ， 它 也 没有 解决 提供 商 依赖 和 多 归属 问题 。 

通过 阅读 这 本 书 可 以 唤起 读者 对 复杂 性 的 好 奇 一 一 这 种 复杂 性 由 工作 在 几 种 网 络 和 应 
用 环境 下 的 一 组 相对 简单 的 概念 发 展 而 来 。 当 各 章 展开 时 ， 读 者 可 以 看 见 复 杂 性 程度 随 着 日 
益 增长 的 需求 而 变化 一 一 这 部 分 是 由 新 的 部 署 情况 和 挑战 决定 的 ， 系 统 规模 的 激增 就 更 不 必 
wT. 

“企业 ”用 户 网 络 安全 的 问题 迫使 人 们 使 用 防火 墙 提供 边界 安全 。 这 样 做 虽然 有 用 ， 但 
是 很 明显 对 本 地 Internet 基础 设施 的 攻击 可 以 通过 内 部 (例如 将 一 台 受 感染 的 计算 机 放 入 内 
部 网 络 ， 或 用 一 个 受 感 染 的 便携 驱动 器 通过 USB 端口 感染 一 台 内 部 计算 机 ) 进行 。 

很 明显 ， 除 了 需要 通过 引入 IPv6 协议 〈 它 有 340 x 10 “个 地 址 ) 扩大 Internet 地 址 空间 
之 外 ， 还 强烈 需要 引入 各 种 安全 增强 机 制 ， 例 如 域名 系统 安全 扩展 (DNSSEC) 等 。 

究竟 是 什么 使 这 本 书 看 起 来 很 独特 ” 据 我 估计 是 对 细节 的 重视 和 对 历史 的 关注 。 它 提供 
了 解决 已 经 演变 的 网 络 问题 的 背景 和 意义 。 它 在 确保 精确 和 揭露 剩余 问题 方面 不 懈 努 力 。 对 
于 一 位 希望 完善 和 确保 Internet 操作 安全 ， 或 探索 持续 存在 的 问题 的 其 他 解决 方案 的 工程 师 
来 说 ， 这 本 书 所 提供 的 见解 将 是 非常 宝贵 的 。 作 者 对 当前 Internet 技术 的 彻底 分 析 蚌 值得 称 
赞 的 。 





Vint Cerf 
Woodhurst 
2011 年 6 月 


| 第 2 版 前 言 


TCP/IP Illustrated, Volume 1: The Protocols, Second Edition 


欢迎 阅读 本 书 的 第 2 版 。 这 本 书 致力 于 对 TCP/IP 协议 族 进 行 详细 了 解 。 不 仅 描述 协议 
如 何 操作 ， 还 使 用 各 种 分 析 工 具 显 示 协 议 如 何 运 行 。 这 可 以 帮助 你 更 好 地 了 解 协议 背后 的 设 
计 决 策 ， 以 及 它们 如 何 相互 影响 。 同 时 为 你 揭露 协议 的 实现 细节 ， 而 不 需要 你 阅读 实现 的 软 
件 源 代码 ， 或 者 设置 一 个 实验 性 的 实验 室 。 当 然 ， 阅 读 源 代码 或 设置 一 个 实验 室 将 不 只 是 有 
助 于 加 深 你 的 理解 。 

网 络 在 过 去 30 年 中 已 经 发 生 了 巨大 的 变化 。Internet 最 初 作为 一 个 研究 项 目 和 令 人 好 奇 
的 对 象 ， 现 在 已 经 成 为 一 个 全 球 性 的 通信 设施 ， 并 被 各 国政 府 、 企 业 和 个 人 所 依赖 。TCP/ 
IP 协议 族 定义 了 Internet 中 每 个 设备 交换 信息 的 基本 方法 。 经 过 十 多 年 的 发 展 ，Internet 和 
TCP/IP 自身 正在 向 兼容 IPv6 的 方向 进化 。 在 整 本 书 中 ,我 们 将 讨论 IPv6 和 目前 的 IPv4， 
着 重 关注 它们 之 间 的 重要 不 同 点 。 遗 憾 的 是 ， 它 们 不 直接 进行 互 操 作 ， 因 此 需要 关心 和 注意 
其 演变 的 影响 。 

本 书 的 读者 对 象 是 希望 更 好 地 了 解 当 前 的 TCP/IP 协议 族 以 及 它们 如 何 运作 的 人 员 : 网 
络 操 作 员 和 管理 员 、 网 络 软 件 开 发 人 员 、 学 生 ， 以 及 需要 掌握 TCP/IP 的 用 户 。 我 们 提供 的 
材料 包括 读者 感 兴趣 的 新 材料 和 第 1 版 已 有 的 材料 ， 希 望 读者 能 从 中 找到 有 用 和 有 趣 的 新 旧 
材料 。 

第 1 版 的 评论 

ERES 1 版 出 版 已 过 去 近 20 年 。 对 于 希望 了 解 TCP/IP 协议 细节 的 学 生 和 专业 人 士 而 
言 ， 本 书 仍然 是 一 个 宝贵 的 资源 ， 这 些 细节 在 许多 其 他 同类 教材 中 是 难以 获得 的 。 目 前 ,， € 
仍 是 有 关 TCP/IP 协议 运行 的 详细 信息 的 最 好 参考 。 但 是 ， 即 使 是 信息 和 通信 技术 领域 最 好 
的 书籍 ， 经 过 一 段 时 间 之 后 也 会 过 时 ， 当 然 本 书 也 不 例外 。 在 这 个 版 本 中 ， 我 希望 通过 引入 
新 材料 来 彻底 更 新 Stevens 博士 的 前 期 工作 ， 同 时 能 够 保持 前 作 的 极 高 水 准 和 对 其 很 多 书籍 
都 包含 的 知识 的 详细 介绍 。 

第 1 版 涵盖 了 各 种 类 型 的 协议 和 它们 的 操作 ， 范 围 从 链 路 层 到 应 用 和 网 络 管理 的 所 有 
方面 。 目 前 ， 将 如 此 广泛 的 材料 综合 在 一 卷 中 篇 幅 将 会 很 长 。 因 此 ， 第 2 版 特别 关注 核心 协 
W: 那些 级 别 相对 较 低 的 协议 ， 常 用 于 为 Internet 提供 配置 、 命 名 、 数 据 传 输 和 安全 等 基础 
性 服务 。 关 于 应 用 、 路 由 、Web 服务 和 其 他 重要 主题 被 放 到 后 续 卷 中 。 

从 第 1 版 出 版 以 来 ， 对 TCP/IP 相应 规范 的 实现 在 鲁 棒 性 和 规范 性 方面 的 改进 已 取得 相 
当 大 的 进展 。 第 1 版 中 很 多 例子 出 现 明 显 的 实现 错误 或 不 符合 要 求 的 行为 ， 这 些 问 题 在 当前 
可 用 的 系统 中 已 经 得 到 解决 ， 至 少 对 于 IPv4 如 此 。 考 虑 到 在 过 去 18 年 中 TCP/IP 协议 的 应 
用 日 益 广泛 ， 这 个 事实 并 不 令 人 吃惊 。 不 符合 要 求 的 实现 是 比较 罕见 的 ， 这 证 明了 协议 族 整 
体 是 比较 成 熟 的 。 当 前 ， 在 核心 协议 的 运行 中 遇 到 的 问题 ， 通 常 涉及 不 常 使 用 的 协议 功能 。 
在 第 1 版 中 不 太 关 注 的 安全 问题 ， 在 第 2 版 中 花费 了 相当 的 笔墨 来 讨论 。 


VIII 


21 世纪 的 互联 网 环境 


Internet 使 用 模式 和 重要 性 自 第 1 版 出 版 以 来 已 经 发 生 了 很 大 变化 。 最 明显 的 具有 分 水 
岭 意 义 的 事件 是 万 维 网 在 20 世纪 90 年 代 初 的 建立 和 随后 开始 的 激烈 的 商业 化 。 这 个 事件 大 
大 加 快 了 大 量 有 不 同 目的 (有 时 冲突 ) 的 人 对 Internet 的 使 用 。 因 此 ， 这 个 最 初 实现 在 一 个 
小 规模 的 学 术 合作 环境 中 的 协议 和 系统 已 受 限 于 有 限 的 可 用 地 址 ， 并 且 需 要 增加 安全 方面 的 
考虑 。 

为 了 应 对 安全 威胁 ， 网 络 和 安全 管理 员 纷纷 为 网 络 引入 专门 的 控制 单元 。 无 论 是 大 型 企 
业 还 是 小 型 企业 和 家 庭 ， 现 在 常见 的 做 法 是 将 防火 墙 布置 在 Internet 的 连接 点 。 随 着 过 去 十 
年 IP 地 址 和 安全 需求 的 增长 ， 网 络 地 址 转换 (NAT) 现在 几乎 被 所 有 路 由 器 支持 ， 并 且 得 到 
广泛 的 使 用 。 它 可 以 缓解 地 址 短缺 的 压力 ， 人 允许 站 点 从 服务 提供 商 〈 对 每 个 同时 在 线 的 用 户 ) 
获得 一 组 相对 较 少 的 可 路 由 的 Internet 地 址 ， 无 须 进一步 协调 就 可 以 为 本 地 主机 提供 大 量 的 
地 址 。 部 署 NAT 的 结果 是 减缓 了 向 IPv6( 它 提供 了 几乎 不 可 思议 的 大 量 地 址 ) 的 迁移 ， 解 决 
了 一 些 旧 协 议 的 互 操作 性 问题 。 

随 着 PC 用 户 在 20 世纪 90 年 代 中 期 开始 要 求 连 接 Internet， 最 大 的 PC 软件 供应 商 
(微软 ) 放弃 了 其 原来 只 提供 专用 Internet 协议 的 策略 ， 转 而 努力 在 自己 的 大 部 分 产品 中 兼 
4 TCP/IP. Ita, i247 Windows 操作 系统 的 PC 变 为 接 入 Internet 的 主体 。 随 着 时 间 的 推 
移 ， 基 于 Linux 系统 的 主机 数量 显著 上 升 ， 意 味 着 这 种 系统 现在 有 可 能 取代 微软 的 领跑 者 地 
位 。 其 他 操作 系统 ， 包 括 Oracle 的 Solaris 和 Berkeley 的 基于 BSD 的 系统 ， 曾 经 代表 了 接 入 
Internet 的 大 多 数 系 统 ， 而 现在 只 占 一 小 部 分 。 苹 果 的 OS X 操作 系统 (基于 Mac) 已 成 为 一 
个 新 的 竞争 者 并 日 益 普及 ， 特 别 是 在 便携 式 计算 机 用 户 中 。2003 年 ,便携式 计算 机 (笔记 本 
电脑 ) 的 销量 超过 了 台式 机 ， 成 为 个 人 电脑 销售 的 主力 类 型 ， 它 们 的 快速 增长 带 来 了 对 支持 
高 速 上 网 的 无 线 基 础 设施 的 需求 。 根 据 预 测 ，2012 年 以 后 访问 Internet 的 最 常用 方法 是 智能 
手机 。 平板 电 脑 也 是 一 个 快速 增长 的 重要 竞争 者 的 代表 。 

现在 有 大 量 场所 提供 了 无 线 网 络 ， 例 如 餐厅 、 机 场 、 咖 啡 馆 ， 以 及 其 他 公共 场所 。 
它们 通常 使 用 办 公 或 家 庭 环境 的 局 域 网 设备 ， 提 供 得 距离 、 免 费 或 低 费 用 、 高 速 、 无 线 
Internet 连接 。 一 系列 基于 蜂窝 移动 电话 标准 (例如 LTE, UMTS, HSPA, EV-DO) 的 “无 
线 宽带 ”替代 技术 已 广泛 用 于 世界 发 达 地 区 (一 些 发 展 中 地 区 争 相 采用 较 新 的 无 线 技术 )， 
为 了 提供 更 大 范围 的 运营 ， 通 常 需要 在 一 定 程度 上 减少 带宽 和 降低 基于 流量 的 定价 。 两 
种 类 型 的 基础 设施 满足 了 用 户 使 用 便携 式 计 算 机 或 更 小 的 设备 在 移动 过 程 中 访问 Internet 
的 需要 。 在 任何 情况 下 ， 移 动 终端 用 户 通过 无 线 网 络 访问 Internet 都 会 带 来 两 个 对 TCP/ 
IP 协议 体系 结构 的 技术 挑战 。 首 先 ， 移动 性 影响 了 Internet 的 路 由 和 寻 址 结构 ， 打 破 了 
主机 基于 附近 的 路 由 器 分 配 地 址 的 假设 。 其 次 ， 无 线 链 路 可 能 因 更 多 原因 而 断 开 并 导致 数 
WER, 这些 原因 与 典型 的 有 线 链 路 (通常 不 会 丢失 太 多 数据 ， 除 非 网 络 中 有 太 多 流量 ) 
不 同 。 

最 后 ，Internet 已 经 促进 了 由 对 等 应 用 形成 的 “覆盖 ”网 络 的 兴起 。 对 等 应 用 不 依赖 于 
中 心服 务 器 完成 一 项 任务 ， 而 是 通过 一 组 对 等 计算 机 之 间 的 通信 和 交互 完成 一 项 任务 。 对 等 
计算 机 可 以 由 其 他 终端 用 户 来 操作 ， 并 且 可 能 快速 进入 或 离开 一 个 固定 的 服务 器 基础 设施 。 
“覆盖 ”的 概念 刻画 了 如 下 事实 : 由 这 些 交 互 的 对 等 方形 成 一 个 网 络 ， 并 且 覆 盖 在 传统 的 基 
于 TCP/IP 的 网 络 上 (在 低层 的 物理 链 路 之 上 实现 覆盖 )。 对 于 那些 对 网 络 流量 和 电子 商务 有 . 


浓厚 兴趣 的 研究 者 而 言 ， 对 等 应 用 的 发 展 没有 对 卷 1 中 所 描述 的 核心 协议 产生 深远 的 影响 ， 
但 是 覆盖 网 络 的 概念 在 网 络 技术 研究 中 普遍 受到 重视 。 


第 2 版 的 内 容 变 化 


第 2 版 的 最 重要 的 变化 是 对 第 1 版 全 部 内 容 的 整体 重组 和 安全 方面 材料 的 显著 增加 。 第 
2 版 没有 尝试 覆盖 Internet 的 每 个 层次 中 使 用 的 所 有 常用 协议 ， 而 是 关注 正在 广泛 使 用 的 非 
安全 的 核心 协议 ， 或 者 预计 在 不 久 的 将 来 广泛 使 用 的 协议 : 以 太 网 ( 802.3 )、Wi-Fi ( 802.11 )、 
PPP, ARP, IPv4, IPv6, TCP, UDP, DHCP 和 DNS。 系统 管理 员 和 用 户 可 能 都 会 用 到 这 
些 协议 。 

第 2 版 通过 两 种 方法 来 讨论 安全 性 。 首 先 ， 每 章 中 都 有 专门 的 一 节 ， 用 于 介绍 对 本 章 所 
描述 协议 的 已 知 攻击 和 对 策 。 这 些 描述 没有 介绍 攻击 的 方法 ， 而 是 提示 了 协议 实现 (或 规范 ， 
在 某 些 情况 下 ) 不 够 健全 时 可 能 出 现 的 问题 。 在 当前 的 Internet 中 ， 对 于 不 完整 的 规范 或 不 
健全 的 实现 ， 即 使 是 相对 简单 的 攻击 ， 也 可 能 导致 关键 的 任务 系统 受到 损坏 。 

第 二 个 重要 的 安全 性 讨论 出 现在 第 18 章 ， 对 安全 和 密码 学 中 的 一 些 细节 进行 研究 ， 包 
括 协 议 ， 例 如 IPsec, TLS, DNSSEC 和 DKIM。 目前 ， 这 些 协议 对 希望 保持 完整 性 或 安全 操 
作 的 任何 服务 或 应 用 的 实现 都 是 非常 重要 的 。 随 着 Internet 在 商业 上 的 重要 性 的 增加 ， 安 全 
需求 (以 及 威胁 的 数量 ) 已 成 比例 增加 。 

虽然 IPv6 没有 被 包括 在 第 1 版 中 ,但 是 未 分 配 的 IPv4 地 址 块 在 2011 年 2 月 已 耗 尽 ， 
现在 有 理由 相信 IPv6 的 使 用 可 能 会 显著 加 快速 度 。IPv6 主要 是 为 了 解决 IPv4 地 址 耗 尽 问题 ， 
随 着 越 来 越 多 的 小 型 设备 (例如 移动 电话 、 家 用 电器 和 环境 传感器 ) BEA Internet，IPv6 正在 
变 得 越 来 越 重 要 。 如 世界 IPv6 日 (2011 年 6 月 8 日 ) 这 种 事件 有 助 于 表明 Internet 可 以 继续 
工作 ， 即 使 是 对 底层 协议 进行 重大 修改 和 补充 。 

对 第 2 版 结构 变化 的 第 二 个 考虑 是 淡化 那些 不 再 常用 的 协议 ， 以 及 更 新 那些 自 第 1 版 出 
版 以 来 已 大 幅 修 订 的 内 容 。 那 些 涉 及 RARP、BOOTP、NFS、SMTP 和 SNMP 的 章节 已 从 书 
中 删除 ，SLIP 协议 的 讨论 已 被 废弃 ,而 DHCP # PPP (包括 PPPoE) 的 讨论 篇 幅 被 扩大 。IP 
转发 (第 1 版 中 的 第 9 章 ) 功能 已 被 集成 在 这 个 版 本 的 第 5 章 的 IPv4 和 1IPv6 协议 的 整体 描 
RP ARHAN (RIP, OSPF, BGP) 的 讨论 已 被 删除 ， 因 为 后 两 个 协议 都 应 该 单独 通 
过 一 本 书 来 讨论 。 从 ICMP 开始 到 IP、TCP 和 UDP， 针对 IPv4 与 IPv6 操作 上 差异 明显 的 情 
况 ， 对 每 种 操作 的 影响 进行 了 讨论 。 这 里 没有 专门 针对 IPv6 的 一 章 ， 而 是 在 合适 位 置 说 明 
它 对 每 个 现 有 的 核心 协议 的 影响 。 第 1 版 中 的 第 15 章 和 第 25 ~ 30 章 ， 致 力 于 介绍 Internet 
应 用 和 它们 的 支持 协议 ， 其 中 的 大 部 分 章节 已 删除 ， 仅 在 必要 时 保留 对 底层 的 核心 协议 操作 
的 说 明 。 

多 个 章节 添加 了 新 内 容 。 第 1 章 从 网 络 问题 和 体系 结构 的 常规 介绍 开始 ， 接 着 是 对 
Internet 进行 具体 介绍 。 第 2 章 涵 盖 Internet 的 寻 址 体系 结构 。 第 6 章 是 新 的 一 章 ， 讨 论 主机 
配置 和 在 系统 中 如 何 “ 显 示 ” 网 络 。 第 7 章 介 绍 了 防火 堵 和 网 络 地 址 转换 (NAT), 包括 NAT 
如 何 用 于 可 路 由 和 不 可 路 由 的 地 址 空间 。 第 1 版 所 用 的 工具 集 已 被 扩大 ， 现 在 包括 Wireshark 
(一 个 免费 的 具有 图 形 用 户 界面 的 网 络 流量 监控 应 用 程序 )。 

第 2 版 的 目标 读者 与 第 1 版 保持 一 致 。 阅 读本 书 不 需要 具备 网 络 概念 的 先期 知识 ， 但 高 
级 读者 可 以 从 细节 和 参考 文献 中 获得 更 大 收获 。 每 章 包 括 一 份 丰 富 的 参考 文献 集 ， 供 有 兴趣 
的 读者 查看 。 


第 2 版 的 编辑 变化 

第 2 版 中 内 容 的 整体 组 织 流程 仍然 类 似 于 第 1 版 。 在 介绍 性 的 内 容 (第 1 章 和 第 2 章 ) 
之 后 ， 采 用 自 底 向 上 方式 介绍 Internet 体系 结构 中 涉及 的 协议 ， 以 说 明 前 面 提 到 的 网 络 通信 
是 如 何 实现 的 。 与 第 1 版 一 样 ， 捕 获 的 真实 数据 包 用 于 在 适当 的 位 置 说 明 协 议 的 操作 细节 。 
自 第 1 版 出 版 以 来 ， 免 费 的 图 形 界 面 的 数据 包 捕获 和 分 析 工 具 已 经 问世 ， 它 们 扩展 了 第 1 
版 中 使 用 的 tcpdump 程序 的 功能 。 在 第 2 版 中 ， 如 果 基 于 文本 的 数据 包 捕 获 工具 的 输出 很 
容易 解释 ， 就 使 用 tcpdump。 但 是 ， 在 大 多 数 情况 下 ， 使 用 Wireshark 工具 的 屏幕 截图 。 震 
要 注意 的 是 ， 为 了 清楚 地 说 明 问 题 ， 有 些 输出 列表 (包括 tcpdump 输出 的 快照 ) 经 过 包装 或 
简化 。 

数据 包 跟 踪 内 容 说 明了 本 书 封 二 所 描述 的 网 络 的 一 个 或 多 个 部 分 的 行为 。 它 代表 了 一 个 
宽带 连接 的 “家 庭 ” 环 境 (通常 用 于 客户 端 访问 或 对 等 网 络 )、 一 个 “公共 ”环境 〈 例 如 咖啡 
厅 ) 和 一 个 企业 环境 。 在 例子 中 使 用 的 操作 系统 包括 Linux, Windows, FreeBSD 和 Mac OS 
X。 目 前 ， 各 种 操作 系统 及 不 同 版 本 被 用 于 Internet 中 。 

每 章 的 结构 相对 第 1 版 已 稍 作 修改 。 每 章 开 头 是 对 该 章 主题 的 介绍 ， 接 着 是 历史 记录 
(在 某 些 情况 下 )， 然 后 是 本 章 详细 资料 、 总 结 和 一 组 参考 文献 。 在 大 多 数 章 中 ， 章 末 都 描述 
了 安全 问题 和 攻击 。 每 章 的 参考 文献 体现 了 第 2 版 的 变化 。 它 们 使 得 每 章 更 具 自 包含 性 ， 读 
者 几乎 不 需要 “长 距离 页 面 跳 转 ” 就 能 找到 参考 文献 。 有 些 参 考 文献 通过 增加 网 址 来 提供 更 
容易 的 在 线 访问 。 另 外 ,论文 和 著作 的 参考 文献 格式 已 变 为 一 种 相对 更 紧凑 的 格式 ， 包 括 每 
个 作者 姓氏 的 首 字母 和 一 个 两 位 数 表示 的 年 (例如 ， 以 前 的 [Cerf and Kahn 1974] 现在 缩短 
为 [CK74])。 对 于 使 用 的 众多 REC 参考 文献 ， 用 RFC 编号 代替 了 作者 姓名 。 这 样 做 遵循 了 
典型 的 RFC 规范 ， 并 将 所 有 引用 的 RFC 集中 在 参考 文献 列表 中 。 

最 后 说 明 的 是 ， 继 续 保 持 本 书 的 印刷 惯例 。 但 是 ， 我 们 选择 使 用 的 编辑 和 排版 格式 ， 与 
Stevens 博士 和 Addison-Wesley Professional Computing Series 系列 丛书 的 其 他 作者 使 用 的 
Troff 系统 不 同 。 因 此 ， 最 后 的 审 稿 任务 利用 了 文字 编辑 Barbara Wood 的 专业 知识 。 我 们 希 
望 大 家 很 高 兴 看 到 这 个 结果 。 


Kevin R. Fall 
Berkeley, California 
2011 年 9 月 
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介绍 

本 书 采用 一 种 不 同 于 其 他 教科 书 的 方式 描述 了 TCP/IP 协议 族 。 用 一 个 流行 的 诊断 工具 
来 观察 这 些 协 议 的 运作 过 程 ， 而 不 是 简单 地 描述 这 些 协 议 以 及 它们 做 些 什 么 。 通 过 观察 这 些 
协议 在 不 同 环 境 下 的 运行 过 程 ， 我 们 可 以 更 好 地 理解 它们 是 如 何 工作 的 ， 以 及 为 什么 要 那样 
设计 。 男 外 ， 本 书 还 对 协议 的 实现 进行 了 概述 ， 而 无 须 读者 费力 阅读 数 千 行 的 源 代码 。 

在 20 世纪 60 年 代 到 80 年 代 期 间 开发 网 络 协议 时 ， 需 要 昂贵 的 专用 硬件 才能 观察 分 组 
“通过 线路 ”的 情况 。 同 时 ， 要 理解 硬件 所 显示 的 分 组 信息 还 需要 对 协议 本 身 极其 熟悉 。 硬 
件 分 析 器 的 功能 受 限 于 硬件 本 身 的 设计 。 

现在 ， 对 局 域 网 进行 监测 的 工作 站 随处 可 见 ， 情 况 发 生 了 巨大 的 变化 [Mogul 1990]。 只 
需要 在 网 络 上 连接 一 个 工作 站 ， 并 运行 一 些 可 公开 获得 的 软件 ， 就 可 以 对 线路 上 的 流通 情况 
进行 观察 。 许 多 人 认为 它 只 是 一 个 诊断 网 络 故障 的 工具 ， 但 是 它 也 是 一 个 理解 网 络 协议 运行 
的 强 有 力 的 工具 ， 这 才 是 本 书 的 目标 。 

本 书 适用 于 那些 希望 理解 TCP/IP 协议 如 何 运行 的 人 : 编写 网 络 应 用 程序 的 程序 员 ， 负 
责 维护 计算 机 系统 和 TCP/IP 网 络 的 系统 管理 员 ， 以 及 经 常 与 TCP/IP 应 用 程序 打交道 的 
Fir. 


排版 约定 
当 我 们 显示 交互 式 的 输入 和 输出 时 ， 输 入 显示 为 加 粗 字 体 ， 计 算 机 的 输出 显示 为 正常 字 
体 。 添 加 的 注释 为 斜体 字 。 


bsdi % telnet svr4 discard connect to the discard server 


Trying 140.252.13.34... this line and next output by Telnet client 
Connected to svr4. 


另外 ， 我 们 始终 将 系统 名 称 作为 shell 提示 符 的 一 部 分 (这 个 例子 中 的 主机 bsdi) 显示 在 
运行 该 命令 的 主机 上 。 

注意 ”在 整 本 书 中 ， 我 们 将 使 用 缩 进 的 楷体 字 以 及 像 这 样 插入 的 “注意 ”来 描述 历 

史 要 点 或 实现 细节 。 

有 时 我 们 会 参考 Unix 手册 中 关于 某 个 命令 的 完整 描述 ， 如 ifconfig(8)。 命 令 名 后 面 跟 一 
个 带 括号 的 数字 是 参考 Unix 命令 的 一 般 方法 。 括 号 中 的 数字 是 该 命令 位 于 Unix 手册 中 的 节 
号 ， 在 那里 可 以 找到 关于 该 命令 的 其 他 信息 。 遗 憾 的 是 ， 并 不 是 所 有 的 Unix 系统 都 以 同样 
方式 组 织 手册 结构 ， 即 通过 节 号 来 区 分 不 同 的 命令 组 。 这 里 ， 我 们 采用 的 是 BSD 风格 (BSD 
派生 系统 都 是 一 样 的 ， 如 SunOS 4.1.3 )， 但 是 你 的 用 户 手册 可 能 采用 不 同 的 组 织 方式 。 
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概 述 





有 效 沟通 取决 于 使 用 共同 的 语言 。 这 一 观点 对 于 人 类 、 动 物 以 及 计算 机 而 言 都 是 适用 
的 。 当 一 种 语言 用 于 一 组 行为 时 ， 需 要 使 用 一 种 协议 。 根 据 《 新 牛津 美国 辞典 》 对 协议 的 
第 一 定义 是 : 


国家 事务 或 外 交 场 合 的 正式 程序 或 规则 系统 。 


我 们 每 天 执行 很 多 协议 : 询问 和 回答 问题 、 谈 判 商业 交易 、 协 同 工 作 等 。 计 算 机 也 会 执 
行 各 种 协议 。 一 系列 相关 协议 的 集合 称 为 一 个 协议 族 。 指 定 一 个 协议 族 中 的 各 种 协议 之 间 的 
相互 关系 并 划分 需要 完成 的 任务 的 设计 ， 称 为 协议 族 的 体系 结构 或 参考 模型 。TCP/IP 是 一 个 
实现 Internet 体系 结构 的 协议 族 ， 它 来 源 于 ARPANET 参考 模型 ( ARM) [RFC0871]。ARM 
受到 了 早期 分 组 交换 工作 的 影响 ， 这 些 工 作 包括 美国 的 Paul Baran[B64] 和 Leonard Kleinrock 
[K64]、 英 国 的 Donald Davies [DBSW66]、 法 国 的 Louis Pouzin [P73]。 虽 然 数 年 之 后 制定 了 
其 他 协议 体系 结构 (例如 ，ISO 协议 体系 结构 [Z80]、Xerox 的 XNS [X85] 和 IBM 的 SNA 
[196]), 但 TCP/IP 已 成 为 最 流行 的 协议 族 。 这 里 有 几 本 有 趣 的 书籍 ， 它 们 关注 计算 机 通信 的 
历史 和 Internet 的 发 展 ， 例 如 [P07] 和 [W02]。 

值得 一 提 的 是 ，TCP/IP 体系 结构 来 源 于 实际 工作 ， 用 于 满足 多 种 不 同 的 分 组 交换 计算 
机 网 络 的 互联 需求 [CK74]。 这 由 一 组 网 关 〈 后 来 称 为 路 由 器 ) 来 实现 ， 网 关 可 以 在 互 不 兼容 
的 网 络 之 间 提 供 翻 译 功能 。 随 着 越 来 越 多 的 提供 各 种 服务 的 节点 投入 使 用 ,由 此 产生 的 “ 串 
联 ” 网 络 或 多 类 型 网 络 (catenet) 一 一 后 来 称 为 互联 网 络 (internetwork) 将 更 加 有 用 。 在 协 
议 体 系 结构 全 面 发 展 之 前 的 几 年 ， 有 人 已 经 设想 了 全 球 性 网 络 可 能 提供 的 服务 类 型 。 例 如 ， 
在 1968 年，J. C. R. Licklider 和 Bob Taylor 已 预见 到 支持 “超级 通信 ”的 全 球 性 互联 通信 网 
络 的 潜在 用 途 [LT68]: 


今天 的 在 线 社区 彼此 在 功能 和 地 理 位 置 上 是 分 离 的 。 每 个 成 员 只 能 看 到 以 自己 
社区 为 中 心 的 设施 的 处 理 、 存 储 和 软件 能 力 等 功能 。 但 是 ， 现 在 的 变化 趋势 是 分 离 
的 社区 之 间 的 互联 ， 从 而 将 它们 变 成 我 们 所 说 的 超级 社区 。 互 联 使 所 有 社区 中 的 所 
有 成 员 能 访问 整个 超级 社区 中 的 程序 和 数据 资源 …… 这 个 变化 将 形成 一 个 由 很 多 网 
络 组 成 的 不 稳定 网 络 ， 该 网 络 无 论 在 内 容 还 是 配置 上 都 在 变化 。 


因此 ， 支 撑 ARPANET 和 后 来 的 Internet 的 全 球 网 络 概念 ， 很 明显 是 针对 我 们 今天 使 用 
的 很 多 服务 类 型 而 设计 的 。 但 是 ， 要 做 到 这 点 是 不 容易 的 。 其 成 功 来 源 于 对 设计 和 实现 的 重 
视 ， 创 新 型 用 户 和 开发 人 员 ， 以 及 提供 足够 多 的 资源 ， 促 使 概念 转化 为 原型 系统 ， 并 最 终 转 
化 为 商业 化 的 网 络 产品 。 

本 章 是 对 Internet 体系 结构 和 TCP/IP 协议 族 的 概述 ， 提 供 了 一 些 历 史 知 识 ， 并 为 后 续 
章节 建立 足够 的 背景 支撑 。 体 系 结构 (协议 和 物理 ) 实际 上 是 一 组 设计 决策 ， 涉 及 支持 哪些 
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特点 和 在 哪里 实现 这 些 特点 。 设 计 一 个 体系 结构 更 多 的 是 艺术 而 不 是 科学 ， 但 我 们 将 讨论 体 
系 结构 中 随 着 时 间 推 移 被 认为 可 行 的 那些 特点 ， 网 络 体系 结构 的 主题 已 在 Day[D08] 中 被 广 
泛 讨 论 ， 它 是 这 方面 的 几 种 方案 之 一 。 


1.1 体系 结构 原则 


TCP/IP 协议 族 允 许 计 算 机 、 智 能 手机 和 内 人 式 设备 之 间 通 信 ， 它 们 可 以 采用 各 种 尺寸 、 
来 自 不 同 计算 机 生产 商 和 运行 各 种 软件 。 在 21 世纪 到 来 之 际 ， 这 已 成 为 现代 通信 、 娱 乐 和 
商务 活动 的 必要 需求 。TCP/IP 确实 是 一 个 开放 的 系统 ， 协 议 族 定义 和 很 多 实现 是 公开 的 ， 收 
费 很 少 或 根本 不 收费 。 它 构成 全 球 因特网 (Internet) 的 基础 (因特网 是 一 个 拥有 遍布 全 球 的 
KA 20 亿 用 户 〈2010 年 ， 占 全 球 人 口 的 30%) 的 广域网 )。 尽 管 很 多 人 认为 因特网 和 万 维 网 
是 可 互 换 的 术语 ， 但 我 们 通常 认为 因特网 在 计算 机 之 间 提 供 了 消息 通信 能力， 而 万 维 网 是 一 
种 使 用 因特网 来 通信 的 具体 应 用 。 在 20 世纪 90 年 代 早 期 万维网 铠 怕 是 最 重要 的 因特网 应 
H, 并 使 因特网 技术 得 到 全 世界 的 重视 。 

Internet 体系 结构 在 几 个 目标 的 指导 下 建立 。 在 [C88] 中 ，Clark 描述 首要 目标 是 “发 展 
一 种 重复 利用 已 有 的 互联 网 络 的 技术 ”。 这 句 话 的 本 质 是 Internet 体系 结构 应 将 多 种 网 络 互联 
起 来 ， 并 在 互联 的 网 络 上 同时 运行 多 个 应 用 。 基 于 这 个 首要 目标 ，Clark 提供 了 以 下 的 二 级 
目标 列表 : 

o Internet 通信 在 网 络 或 网 关 失 效 时 必须 能 持续 。 

Internet 必须 支持 多 种 类 型 的 通信 服务 。 

Internet 体系 结构 必须 兼容 多 种 网 络 。 

Internet 体系 结构 必须 允许 对 其 资源 的 分 布 式 管理 。 
Internet 体系 结构 必须 是 经 济 有 效 的 。 

Internet 体系 结构 必须 允许 低能 力主 机 的 连接 。 
Internet 中 使 用 的 资源 必须 是 可 统计 的 。 

上 面 列 出 的 很 多 目标 将 被 最 终 的 设计 决策 所 采纳 。 但 是 ， 在 制定 这 些 体系 结构 原则 时 ， 
这 些 原则 影响 到 设计 者 所 做 的 选择 ， 最 后 少数 几 种 设计 方案 脱颖而出 。 我 们 将 提 到 其 中 几 种 
重要 方案 及 其 结果 。 


1.1.1 分 组 、 连 接 和 数据 报 


直到 20 世纪 60 年 代 ， 网 络 的 概念 主要 是 基于 电话 网 络 。 它 是 针对 在 一 次 通话 中 连接 双 
方 通话 而 设计 的 。 一 次 通话 通常 要 在 通话 双方 之 间 建 立 一 条 连接 。 建 立 一 个 连接 意味 着 ， 在 
一 次 通话 过 程 中 ， 通 话 双方 之 间 需 要 建立 一 条 线路 〈 最 初 是 一 条 物理 电路 )。 当 一 次 通话 结 
束 时 ， 这 条 连接 被 释放 ， 人 允许 这 条 线路 用 于 其 他 用 户 通话 。 通 话 时 间 和 连接 端 身份 用 于 用 
户 计 费 。 当 一 次 连接 建立 后 ， 它 为 用 户 提供 一 定数 量 的 带宽 或 容量 ， 以 便 传 输 信息 (通常 
是 语音 )。 电 话 网 从 最 初 的 模拟 网 络 演变 到 数字 网 络 ， 这 样 极 大 地 提高 了 自身 的 可 靠 性 和 性 
能 。 在 线路 一 端 输入 的 数据 ， 沿 着 某 些 预 先 建立 的 经 过 网 络 交换 机 的 路 径 ， 通 常 具 有 某 个 时 
E GER) 上 限 ， 在 线路 男 一 端 以 一 种 可 预测 方式 出 现 。 这 样 ， 在 用 户 需 要 且 线 路 可 用 的 情 
况 下 ， 可 以 提供 可 预测 的 服务 。 线 路 是 一 条 通过 网 络 的 路 径 ， 它 为 一 次 通话 过 程 而 保留 ， 即 
使 在 并 不 繁忙 的 情况 下 。 关 于 电话 网 络 的 常识 是 : 在 一 次 通话 期 间 ， 即 使 我 们 没有 说 任何 话 ， 
也 要 为 这 段 时 间 而 付费 。 


H Æ 3 


20 世纪 60 年 代 出 现 的 一 个 重要 概念 (如 [B64] F) 是 分 组 交换 思想 。 在 分 组 交换 中 ， 
包含 一 定 字 节 数 的 数字 信息 “ 块 ”( 分 组 ) 独立 通过 网 络 。 来 自 不 同 来 源 或 发 送 方 的 块 可 以 
组 合 ， 而 且 以 后 可 以 分 解 ， 这 称 为 “( 多 路 ) 复 用 ”。 这 些 块 在 到 达 目 的 地 的 过 程 中 ， 需 要 在 
交换 设备 之 间 传 输 ， 并 且 路 径 可 以 改变 。 这 样 做 有 两 个 潜在 的 优点 : 网 络 更 有 弹性 (设计 者 
不 用 担心 网 络 受到 物理 攻击 )， 基 于 统计 复 用 可 更 好 地 利用 网 络 链 路 和 交换 设备 。 

当 一 台 分 组 交换 机 接收 到 分 组 时 ， 它 们 通常 存储 在 缓存 或 队列 中 ， 并 通过 先 到 达 先 服务 
(FCFS) 的 方式 处 理 。 这 是 最 简单 的 分 组 处 理 调度 方式 ， 又 称 为 先进 先 出 (FIFO)。FIFO # 
冲 区 管理 和 按 需 调度 很 容易 结合 起 来 实现 统计 复 用 ， 它 是 Internet 中 用 来 处 理 不 同 来 源 的 混 
合流 量 的 主要 方法 。 在 统计 复 用 中 ， 流 量 基于 到 达 的 统计 或 时 间 模 式 而 混合 在 一 起 。 这 种 多 
路 复 用 是 简单 而 有 效 的 ， 因 为 如 果 网 络 带 宽 被 使 用 和 有 流量 通过 ， 那 么 网 络 中 的 每 个 瓶颈 或 
阻塞 点 将 会 繁忙 (高 利用 率 )。 这 种 方法 的 缺点 是 可 预测 性 有 限 ， 通 过 某 些 特定 应 用 的 性 能 
可 看 出 ， 它 依赖 于 对 共享 网 络 的 其 他 应 用 的 统计 。 统 计 复 用 就 像 是 一 条 高 速 公路 ， 车 辆 可 以 
变换 车 道 ， 但 是 最 终 会 分 散在 各 处 ， 任 何 点 的 收缩 都 可 能 造成 道路 繁忙 。 

某 些 替代 性 的 技术 ， 例 如 时 分 复 用 (TDM) 和 静态 复 用 ， 通 常 在 每 个 连接 上 为 数据 保 
留 一 定量 的 时 间或 其 他 资源 。 虽 然 这 种 技术 可 能 具有 更 好 的 可 预测 性 ， 可 用 于 支持 恒定 比特 
率 的 电话 通话 功能 ， 但 它 可 能 无 法 充分 利用 网 络 带 宽 ， 这 是 由 于 保留 的 带宽 可 能 未 使 用 。 注 
意 ， 当 电路 是 通过 TDM 技术 来 实现 时 ， 虚 电路 (VC) 会 表现 出 很 多 电路 行为 ， 但 是 不 依赖 
于 物理 的 电路 交换 机 ， 而 通过 顶层 的 面向 连接 的 分 组 来 实现 。 这 是 流行 的 X.25 协议 的 基础 ， 
该 技术 直到 20 世纪 90 年 代 初 才 开始 被 帧 中 继 大 规模 取代 ， 并 最 终 被 数字 用 户 线 (DSL) H 
术 和 支持 Internet 连接 的 电缆 调制 解 调 器 所 取代 ( 见 第 3 BE). 

对 于 虚 电 路 抽象 和 面向 连接 的 分 组 网 络 〈 例 如 X.25 )， 需 要 在 每 个 交换 机 中 为 每 个 连接 
存储 一 些 信 息 或 状态 。 原 因 是 每 个 分 组 只 携带 少量 的 额外 信息 ， 以 提供 到 某 个 状态 表 的 索 
引 。 例如， 在 X.25 中 ，12 位 的 逻辑 信道 标识 符 ( LCI) 或 远 辑 信道 号 (LCN) 被 用 于 这 个 目 
的 。 在 每 台 交 换 机 中 ，LCI LCN 和 交换 机 中 的 每 个 流 状态 相 结合 ， 以 决定 分 组 交换 路 径 
中 的 下 一 台 交 换 机 。 在 使 用 信 令 协议 在 一 条 虚 电 路 上 交换 数据 之 前 ， 每 个 流 状 态 已 经 建立 ， 
该 协议 支持 连接 建立 、 清 除 和 状态 信息 。 因 此 ， 这 种 网 络 称 为 面向 连接 的 。 

无 论 是 建立 在 线路 还 是 交换 的 基础 上 ， 面 向 连接 的 网 络 是 多 年 来 最 流行 的 联网 方 
式 。 在 20 世 纪 60 年 代 后 期 ， 数 据 报 作为 另 一 种 可 选 方案 而 得 到 发 展 。 数 据 报 起 源 于 
CYCLADES[P73] 系统 ， 它 是 一 个 特定 类 型 的 分 组 ， 有 关 来 源 和 最 终 目的 地 的 所 有 识别 信息 
都 位 于 分 组 中 (而 不 是 分 组 交换 机 中 )。 虽 然 这 通常 需要 较 大 的 数据 包 ， 但 不 需要 在 交换 机 
中 维护 连接 状态 ， 它 可 用 于 建立 一 个 无 连接 的 网 络 ， 并 且 没 必要 使 用 复杂 的 信 令 协议 。 数 据 
报 很 快 被 早期 的 Internet 设计 者 所 接受 ， 这 个 决定 对 协议 族 其 他 部 分 有 深远 影响 。 

另 一 个 相关 的 概念 是 消息 边界 或 记录 标记 。 如 图 1-1 所 示 ， 当 一 个 应 用 将 多 个 信息 块 发 
送 到 网 络 中 ， 这 些 信 息 块 可 能 被 通信 协议 保留 ， 也 可 能 不 被 通信 协议 保留 。 大 多 数 数 据 报 协 
议 保 存 消息 边界 。 这 样 设计 是 很 自然 的 ， 因 为 数据 报 本 身 有 一 个 开始 和 结束 。 但 是 ， 在 电路 
交换 或 虚 电 路 网 络 中 ， 一 个 应 用 程序 可 能 需要 发 送 几 块 数据 ， 接 收 程序 将 所 有 数据 作为 一 个 
块 或 多 个 块 来 读 取 。 这 些 类 型 的 协议 不 保留 消息 边界 。 在 底层 协议 不 保留 消息 边界 ， 而 应 用 
程序 需要 它 的 情况 下 ， 应 用 程序 必须 自己 来 提供 这 个 功能 。 


1.1.2 ” 端 到 端 论 点 和 命运 共享 
当 我 们 设计 一 个 大 的 系统 (例如 操作 系统 或 协议 族 ) 时 ， 随 之 而 来 的 问题 通常 是 在 什么 
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位 置 实现 某 个 功能 。 影 响 TCP/IP 协议 族 设计 的 一 个 重要 原则 称 为 端 到 端 论点 [SRC84]: 


只 有 在 通信 系统 端 角度 的 应 用 知识 的 帮助 下 ， 才 能 完全 和 正确 地 实现 问题 中 
提 到 的 功能 。 因 此 ， 作 为 通信 自身 的 一 个 特点 ， 不 可 能 提供 有 疑问 的 功能 。( 有 时 ， 
通信 系统 提供 的 一 个 功能 不 完整 的 版 本 可 能 用 于 提高 性 能 。) 













应 用 程序 向 网 络 写 应 用 程序 从 网 络 读 
— [mn] [m || mri 
E ae = 
g rye Mig 应 用 程序 “ 读 ”功能 返回 
eaat _ 同样 大 小 的 相应 写 
3 21 5 RA oke ea) (W1, WW2 和 W3) 
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应 用 程序 “ 读 ”功能 返回 
应 用 程序 请 求 
(例如 ，6 次 读 ， 每 次 R 个 字 节 ) 
图 1-1 应 用 程序 将 协议 携带 的 数据 写 人 消息 。 消 息 边界 是 两 次 写 人 之 间 的 位 置 或 字 节 偏 移 量 。 保 留 消 
息 边 界 的 协议 由 接收 方 给 出 发 送 方 的 消息 边界 。 不 保留 消息 边界 的 协议 (例如 ， 像 TCP 这 样 的 
流 协议 ) 忽略 这 类 信息 ， 并 使 它 在 接收 方 无 效 。 这 样 做 的 结果 是 ， 如 果 这 个 功能 是 必需 的 ， 应 
用 程序 需要 自己 实现 发 送 方 的 消息 边界 


在 第 一 次 阅读 时 ， 这 种 观点 看 起 来 似乎 相当 直观 ， 它 可 能 对 通信 系统 设计 产生 深远 影 
响 。 它 认为 只 有 涉及 通信 系统 的 应 用 程序 或 最 终 用 户 ， 其 正确 性 和 完整 性 才 可 能 得 到 实现 。 
即使 为 正确 实现 应 用 程序 做 了 努力 ， 其 功能 可 能 注定 不 会 很 完善 。 总 之 ， 这 个 原则 认为 重要 
功能 (例如 差错 控制 、 加 密 、 交 付 确认 ) 通常 不 会 在 大 型 系统 的 低层 ( 见 1.2.1 节 ) 实现 。 但 
是 ,低层 可 以 提供 方便 端 系统 工作 的 功能 ， 并 最 终 可 能 改善 性 能 。 这 种 观点 表明 低层 功能 不 
应 以 完美 为 目标 ， 这 是 因为 对 应 用 程序 需求 做 出 完美 推测 是 不 可 能 的 。 

端 到 端 论点 倾向 于 支持 一 种 使 用 “ 哑 ” 网 络 和 连接 到 网 络 的 “智能 ”系统 的 设计 方案 。 
这 是 我 们 在 TCP/IP 设计 中 所 看 到 的 ， 很 多 功能 (例如 ， 保 证 数据 不 丢失 、 发 送 方 控制 发 送 
速率 ) 在 端 主机 的 应 用 程序 中 实现 。 选 择 哪 些 功能 在 同一 计算 机 、 网 络 或 软件 栈 中 实现 ， 这 
是 另 一 个 称 为 命运 共享 的 相关 原则 [C88]。 

命运 共享 建议 将 所 有 必要 的 状态 放 在 通信 端点 ， 这 些 状态 用 于 维护 一 个 活动 的 通信 关联 
(例如 虚拟 连接 )。 由 于 这 个 原因 ， 导 臻 通信 失效 的 情况 也 会 导致 一 个 或 更 多 端点 失效 ， 这 样 
显然 会 导致 整个 通信 的 失败 。 命 运 共 享 是 一 种 通过 虚拟 连接 (例如 ， 由 TCP 实现 ) 维持 活 
动 的 设计 理念 ， 即 便 网 络 连接 在 一 段 时 间 内 失效 。 命 运 共享 也 支持 一 种 “ 带 智 能 终端 主机 
的 哑 网 络 ”模型 ， 当 前 Internet 中 的 矛盾 是 : 哪些 功能 在 网 络 中 实现 ， 哪 些 功 能 不 在 网 络 中 
实现 。 


1.1.3 ”差错 控制 和 流量 控制 


在 网 络 中 存在 数据 损坏 或 丢失 的 情况 。 这 可 能 出 于 各 种 原因 ， 例 如 硬件 问题 、 数 据 传输 
中 被 修改 、 在 无 线 网 络 中 超出 范围 ， 以 及 其 他 因素 。 对 这 种 错误 的 处 理 称 为 差错 控制 ， 它 可 
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以 在 构成 网 络 基础 设施 的 系统 、 连 接 到 网 络 的 系统 或 其 他 组 合 中 实现 。 显 然 ， 端 到 端 论点 和 
命运 共享 建议 在 应 用 程序 附近 或 内 部 实现 差错 控制 。 

通常 ， 在 只 有 少数 位 出 错 的 情况 下 ， 我 们 关注 的 是 ， 当 数据 已 被 接收 或 正在 传输 过 程 
中 ， 有 些 数 学 代码 可 用 于 检测 和 修复 这 种 位 差错 [LC04]。 这 个 任务 通常 在 网 络 中 执行 。 当 更 
多 严重 损坏 发 生 在 分 组 网 络 时 ， 整 个 分 组 通常 被 重新 发 送 或 重新 传输 。 在 线路 交换 或 虚 电 路 
交换 网 络 〈 例 如 X.25 ) 中 ， 重 新 传输 通常 在 网 络 内 部 进行 。 这 对 那些 顺序 要 求 严 格 和 无 差错 
， 交 付 的 应 用 是 有 用 的 ， 但 有 些 应 用 不 需要 这 种 功能 或 不 希望 为 数据 可 靠 交 付 而 付出 代价 〈 例 
如 连接 建立 和 重新 传输 延迟 )。 一 个 可 靠 的 文件 传输 应 用 并 不 关心 交付 的 文件 数据 块 的 顺序 ， 
最 终 将 所 有 块 无 差错 地 交付 并 按 原 来 顺序 重新 组 合 即 可 。 

针对 网 络 中 可 靠 、 按 顺序 交付 的 实现 开销 ， 帧 中 继 和 Internet 协议 采用 一 种 称 为 尽力 而 
为 交付 的 服务 。 在 尽力 而 为 的 交付 中 ， 网 络 不 会 花费 很 大 努力 来 确保 数据 在 没有 差错 或 缺陷 
的 情况 下 交付 。 某 些 差 错 通常 用 差错 检测 码 或 校 验 和 来 检测 ， 例 如 那些 可 能 影响 一 个 数据 报 
定向 的 差错 ， 当 检测 到 这 种 差错 时 ， 出 错 的 数据 报 仅 被 丢弃 而 没有 进一步 行动 。 

如 果 尽 力 而 为 的 交付 成 功 ， 发 送 方 能 以 超过 接收 方 处 理 能 力 的 速度 生成 信息 。 在 尽力 而 
为 的 卫 网 络 中 ， 降 低 发 送 方 的 发 送 速度 可 通过 流量 控制 机 制 实现 ， 它 在 网 络 外 部 或 通信 系 
统 高 层 中 运行 。 注 意 ，TCP 会 处 理 这 种 问题 ， 我 们 将 在 第 15 章 和 第 16 章 中 详细 讨论 。 这 
与 端 到 端 论 点 一 致 : TCP 在 端 主机 中 实现 速率 控制 。 它 也 与 命运 共享 一 致 : 这 种 方案 在 网 络 
基础 设施 中 有 些 单元 失效 的 情况 下 ， 不 会 影响 网 络 设备 的 通信 能 力 〈 只 要 有 些 通信 路 径 仍然 
可 用 )。 


1.2 设计 和 实现 


虽然 建议 用 一 个 特定 方法 实现 一 个 协议 体系 结构 ， 但 是 这 通常 不 是 强制 的 。 因 此 ， 我 们 
对 协议 体系 结构 和 实现 体系 结构 加 以 区 分 ， 实现 体系 结构 定义 了 协议 体系 结构 中 的 概念 如 何 
用 于 软件 形式 的 实现 中 。 

很 多 负责 实现 ARPANET 协议 的 人 员 都 熟悉 操作 系统 的 软件 结构 ， 一 篇 有 影响 力 的 论文 
描述 的 “THE” 多 编程 系统 [D68]， 主 张 使 用 一 种 层次 结构 的 处 理 方式 ， 以 检查 一 个 大 型 软 
件 实现 逻辑 的 稳健 性 和 正确 性 。 最 终 ， 这 有 助 于 形成 一 种 网 络 协议 的 设计 理念 ， 它 涉及 实现 
(和 设计 ) 的 多 个 层次 。 这 种 方案 现在 称 为 分 层 ， 它 是 实现 协议 族 的 常用 方案 。 


1.2.1 SE 

通过 分 层 ， 每 层 只 负责 通信 的 一 个 方面 。 采 用 多 层 是 有 益 的 ， 这 是 因为 分 层 设 计 人 允许 开 
发 人 员 分 别 实现 系统 的 不 同 部 分 ， 它 们 通常 由 在 不 同 领域 的 专业 人 员 完 成 。 最 常 提 到 的 协议 
分 层 概 念 基 于 一 个 称 为 开放 系统 互 连 标准 (OSI) 的 模型 [Z80]， 该 模型 是 由 国际 标准 化 组 织 
(ISO) 定义 的 。 图 1-2 显示 了 标准 的 OSI 层次 ,包括 它们 的 名 称 、 编 号 和 若干 例子 。Internet 
的 分 层 模型 比较 简单 ， 我 们 将 在 1.3 节 中 介绍 。 

尽管 OSI 模 型 建议 的 7 个 逻辑 层 在 协议 体系 结构 的 模块 化 实现 中 是 可 取 的 ,但 是 通常 认 
H TCP/IP 体系 结构 包含 5 层 。 在 20 世纪 70 年 代 初 ,已 有 很 多 关于 OSI 模型 的 相对 优势 和 
FE, UK ARPANET 模型 优 于 它 的 争论 。 公 平地 说 ， 尽 管 TCP/PP 最 终 取 得 “胜利 ”， 但 
来 自 ISO 协议 族 (由 ISO 遵循 OSI 模型 进行 标准 化 ) 的 一 些 思想 ， 甚 至 整个 协议 已 被 用 于 
TCP/IP 中 (例如 IS-IS[RFC3787]) 。 
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如 图 1-2 的 简要 介绍 ， 每 层 都 有 不 同 任务 。 自 下 而 上 ， 物 理 层 定义 了 一 种 通过 某 种 通信 介 
质 〈 例 如 一 条 电话 线 或 光纤 电缆 ) 传输 数字 信息 的 方法 。 以 太 网 和 无 线 局 域 网 ( Wi-Fi) 标准 的 
一 部 分 也 在 这 层 ， 但 我 们 不 打算 在 本 书 中 深入 介绍 。 链 路 层 或 数据 链 路 层 包 含 为 共享 相同 介质 
的 邻居 建立 连接 的 协议 或 方法 。 有 些 链 路 层 网 络 (例如 DSL) 只 连接 两 个 邻居 。 当 超过 一 个 邻 
居 可 以 访问 共享 网 络 时 ， 这 个 网 络 称 为 多 接 入 网 络 。Wi-Fi 和 以 太 网 是 这 种 多 接 入 链 路 层 网 络 
的 例子 ， 特 定 协议 用 于 协调 多 个 站 在 任何 时 间 访 问 共 享 介质 。 我 们 将 在 第 3 章 中 讨论 。 


编号 名 称 描述 /例子 


W 
7R 
¥ 
a 
点 





图 1-2 ISO 定义 的 标准 7 层 OSI 模型 。 每 个 网 络 设备 (至 少 从 理论 上 ) 并 不 需要 实现 所 有 协议 。OSI 
的 术语 和 层 数 被 广泛 使 用 


在 层次 结构 中 ， 我 们 对 网 络 层 或 互联 网 络 层 最 有 兴趣 。 对 于 分 组 网 络 (例如 TCP/IP)， 
它 提供 了 一 种 可 互 操作 的 分 组 格式 ， 可 通过 不 同类 型 的 链 路 层 网 络 来 连接 。 本 层 也 包括 针 
对 主机 的 地 址 方案 和 用 于 决定 将 分 组 从 一 台 主 机 发 送 到 男 一 台 主 机 的 路 由 算法 。 对 于 上 述 3 
层 ， 我 们 发 现 协 议 (至 少 在 理论 上 ) 仅 实现 在 端 主机 中 ， 这 也 包括 传输 层 。 我 们 对 传输 层 也 
有 很 大 兴趣 ， 它 提供 了 一 个 会 话 之 间 的 数据 流 ， 而 且 可 能 相当 复杂 ， 这 取决 于 它 提供 的 服务 
类 型 (例如 ， 分 组 网 络 的 可 靠 交 付 可 能 会 丢弃 数据 )。 会 话 表示 运行 中 的 应 用 (例如 ，cookies 
用 于 Web 浏览 器 的 Web 登录 会 话 过 程 中 ) 之 间 的 交互 ， 会 话 层 协议 可 提供 例如 连接 初始 化 
和 重新 启动 、 增 加 检查 点 (保存 到 目前 为 止 已 完成 的 工作 ) 等 功能 。 在 会 话 层 之 上 是 表示 层 ， 
它 负 责 信息 的 格式 转换 和 标准 化 编码 。 正 如 我 们 所 看 到 的 ，Internet 协议 不 包括 正式 的 会 话 
层 或 表示 层 ， 如 果 需 要 的 话 ， 这 些 功 能 由 应 用 程序 来 实现 。 

最 高 层 是 应 用 层 。 各 种 应 用 通常 会 实现 自己 的 应 用 层 协议 ， 它 们 对 用 户 来 说 是 最 容易 看 
到 的 。 目 前 已 存在 大 量 的 应 用 层 协议 ， 并 且 程 序 员 仍 在 不 断 开 发 新 协议 。 因 此 ， 应 用 层 是 创 
新 最 多 ， 以 及 新 功能 开发 和 部 署 的 地 方 。 


1.2.2 ”分 层 实现 中 的 复 用 、 分 解 和 封装 


分 层 体系 结构 的 一 个 主要 优点 是 具有 协议 复 用 的 能 力 。 这 种 复 用 形式 允许 多 种 协议 共存 于 
同一 基础 设施 中 。 它 也 允许 相同 协议 对 象 (例如 连接 ) 的 多 个 实例 同时 存在 ， 并 且 不 会 被 混淆 。 


wk 7 


复 用 可 以 发 生 在 不 同 层 ， 并 在 每 层 都 有 不 同类 型 的 标识 符 ， 用 于 确定 信息 属于 哪个 协 
议 或 信息 流 。 例 如 ， 在 链 路 层 ， 大 多 数 的 链 路 技术 〈 例 如 以 太 网 和 Wi-Fi) 在 每 个 分 组 中 包 
含 一 个 协议 标识 符 字段 ， 用 于 指出 链 路 层 帧 携带 的 协议 (IP 是 这 种 协议 )。 当 某 层 的 一 个 
称 为 协议 数据 单元 (PDU) 的 对 象 (分 组 、 消 息 等 ) 被 低层 携带 时 ， 这 个 过 程 称 为 在 相 邻 低 
层 的 封装 (作为 不 透明 数据 )。 因 此 ， 第 入 层 的 多 个 对 象 可 以 通过 第 N-1 层 的 封装 而 复 用 。 
图 1-3 显示 了 封装 的 工作 过 程 。 第 N-1 层 的 标识 符 在 第 N 层 的 分 解 过 程 中 用 于 决定 正确 的 接 


















收 协 议 或 程序 。 
层 编号 封装 的 对 象 
N 第 N 层 的 PDU 
"n 第 NI 层 的 |  RHISNAPDUREASN- A | ON 
头 部 作为 不 透明 数据 对 待 
尾部 
N-2 来 自 第 N-1 层 的 PDU 在 第 N-2 层 
作为 不 透明 数据 对 待 








PDU 的 前 面 

图 1-3 封装 通常 与 分 层 一 起 使 用 。 单 纯 的 封装 涉及 获得 某 层 的 PDU， 并 在 低层 将 它 作为 不 透明 (无 须 
解释 ) 的 数据 来 处 理 。 封 装 发 生 在 发 送 方 ， 拆 封 (还 原 操 作 ) 发 生 在 接收 方 。 多 数 协议 在 封装 
过 程 中 使 用 头 部 ， 少 数 协议 也 使 用 尾部 


在 图 1-3 中 ,每 层 都 有 自己 的 消息 对 象 (PDU) 的 概念 ， 对 应 于 负责 创建 它 的 那个 特定 
层 。 例 如 ， 如 果 第 4 层 (传输 层 ) 协议 生成 一 个 分 组 ， 将 它 称 为 第 4 层 PDU 或 传输 层 PDU 
( TPDU) 更 准确 。 如 果 某 层 获得 由 它 的 上 层 提 供 的 PDU， 它 通常 “承诺 ”不 查看 PDU 中 的 
具体 内 容 。 这 是 封装 的 本 质 ， 每 层 都 将 来 自 上 层 的 数据 看 成 不 透明 、 无 须 解 释 的 信息 。 最 常 
见 的 处 理 是 某 层 在 获得 的 PDU 前 面 增加 自己 的 头 部 ， 有 些 协议 是 增加 尾部 (不 是 TCP/IP). 
头 部 用 于 在 发 送 时 复 用 数据 ， 接 收 方 基于 一 个 分 解 ( 拆 分 ) 标识 符 执行 分 解 。 在 TCP/IP 网 络 
中 ， 这 类 标识 符 通常 是 硬件 地 址 、IP 地 址 和 端口 号 。 头 部 中 也 包含 一 些 重要 的 状态 信息 ， 例 
如 一 条 虚 电 路 是 正在 建立 还 是 已 经 建立 。 由 此 产生 的 对 象 是 男 一 个 PDU。 

图 1-2 建议 的 分 层 的 另 一 个 重要 特点 是 : 在 单纯 的 分 层 中 ， 并 不 是 所 有 网 络 设备 都 需要 
实现 所 有 层 。 图 1-4 显示 在 某 些 情况 下 ， 如 果 设 备 只 希望 执行 特定 操作 ， 那 么 它 只 需要 实现 
少数 几 层 。 

在 图 1-4 中 ， 有 些 理想 化 的 小 型 互联 网 络 包 括 两 种 端 系统 ， 即 交换 机 和 路 由 器 。 在 本 图 
中 ， 每 个 编号 对 应 于 在 特定 层 中 的 一 种 协议 。 正 如 我 们 所 见 ， 每 个 设备 实现 协议 栈 的 一 个 子 
集 。 左 侧 的 主机 对 应 的 物理 层 实现 了 3 种 链 路 层 协议 (D、E 和 FF)， 以 及 运行 在 同一 网 络 层 
协议 上 的 3 种 传输 层 协 议 (A、B 和 C)。 端 主机 实现 了 所 有 层 ， 交 换 机 实现 到 第 2 OR 
交换 机 实现 了 D 和 G)， 路 由 器 实现 到 第 3 层 。 由 于 路 由 器 具有 互联 不 同类 型 的 链 路 层 网 络 
的 能 力 ， 因 此 它 必须 为 互联 的 每 种 网 络 实 现 链 路 层 协议 。 
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2 | 链 路 层 F --」 链 路 层 D | 链 路 层 G | --」 链 路 层 G | seez H- 
交换 机 
主机 (网 桥 ) 
图 1-4 不 同 的 网 络 设 备 实现 协议 栈 的 不 同 子 集 。 端 主机 通常 实现 所 有 层 。 路 由 器 实现 传输 层 之 下 的 各 
层 。 这 种 理想 化 的 结构 经 常 被 破坏 ， 这 是 由 于 路 由 器 和 交换 机 通常 包括 类 似 于 主机 的 功能 ( 例 

如 管理 和 建立 )， 因 此 它们 需要 实现 所 有 层 ， 即 使 有 些 层 很 少 使 用 


路 由 器 主机 


图 1-4 所 示 的 互联 网 络 是 理想 化 的 ， 当 前 的 交换 机 和 路 由 器 通常 实现 更 多 协议 ， 这 已 超 
出 单纯 实现 数据 转发 的 需要 。 这 里 有 很 多 原因 ， 包 括 管理 方面 。 在 这 种 情况 下 ， 路 由 器 和 交 
换 机 等 设备 有 时 需要 充当 主机 ， 并 支持 远程 登录 这 类 服务 。 为 了 做 到 这 点 ， 它 们 通常 需要 实 
现 传输 层 和 应 用 层 协议 。 

尽管 我 们 只 显示 两 台 主 机 之 间 的 通信 ， 但 是 链 路 层 和 物理 层 网 络 (标记 为 D 和 G) 可 能 
连接 多 台 主 机 。 如 果 这 样 ， 可 以 在 任意 两 台 实 现 相应 的 高 层 协议 的 系统 之 间 通 信 。 在 图 1-4 
中 ， 针 对 一 个 特定 的 协议 族 ， 可 以 区 分 为 端 系统 (两边 的 两 台 主 机 ) 和 中 间 系 统 (中 间 的 路 
由 器 )。 网 络 层 之 上 的 各 层 使 用 端 到 端 协议 。 在 我 们 的 描述 中 ， 只 有 端 系统 需要 这 些 层次 。 
但 是 ， 网 络 层 提供 了 一 种 逐 跳 协议 ， 它 用 于 两 个 端 系统 和 每 个 中 间 系 统 。 通 常 不 认为 交换 机 
或 桥接 是 一 个 中 间 系 统 ， 这 是 由 于 它们 没有 使 用 互联 网 络 协议 的 地 址 格式 来 编 址 ， 并 在 很 大 
程度 上 以 透明 于 网 络 层 协 议 的 方式 运行 。 从 路 由 器 和 端 系统 的 角度 来 看 ， 交 换 机 或 网 桥 实际 
是 不 可 见 的 。 

顾名思义 ， 路 由 器 有 两 个 或 更 多 的 网 络 接口 (由 于 它 连接 两 个 或 多 个 网 络 )。 有 多 个 接 
口 的 系统 称 为 多 宿主 。 一 台 主 机 也 可 以 是 多 宿主 的 ， 但 除非 它 专门 将 分 组 从 一 个 接口 转发 到 
另 一 个 接口 ， 和 否则 不 能 把 它 称 为 路 由 器 。 另 外 ， 路 由 器 不 一 定 只 是 在 网 络 中 转发 分 组 的 特殊 
硬件 设备 。 在 多 数 的 TCP/IP 实现 中 ， 如 果 正 确 配 置 的 话 ， 允 许多 宿主 主机 作为 路 由 器 使 用 。 
在 这 种 情况 下 ， 我 们 可 以 把 该 系统 称 为 主机 ( 当 它 运行 文件 传输 协议 (FTP) [RFC0959] 或 
Web 应 用 时 ) 或 路 由 器 ( 当 它 将 分 组 从 一 个 网 络 转发 到 另 一 个 网 络 时 )。 我 们 将 结合 上 下 文 使 
用 相关 的 术语 。 l 

互联 网 络 的 目标 之 一 是 对 应 用 隐藏 所 有 关于 物理 布局 (拓扑 ) 和 低层 协议 的 异 构 性 的 细 
节 。 虽 然 在 图 1-4 所 示 的 由 两 个 网 络 组 成 的 互联 网 络 中 并 不 明显 ， 但 应 用 层 不 关心 (不 在 乎 ) 
以 下 事实 : 尽管 连接 在 网 络 中 的 主机 都 采用 链 路 层 协议 D (例如 以 太 网 ), 但 主机 之 间 由 采用 
链 路 层 协 议 G 的 路 由 器 和 交换 机 隔 开 。 主 机 之 间 可 能 有 20 个 路 由 器 ， 它 们 可 采用 其 他 类 型 
的 物理 连接 ， 应 用 程序 无 须 修改 即 可 运行 (虽然 性 能 可 能 有 所 不 同 )。 以 这 种 方式 对 细节 加 
以 抽象 是 促使 互联 网 络 概 念 变 得 强大 和 有 用 的 原因 。 
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1.3 TCP/IP 协议 族 结构 和 协议 

到 目前 为 止 ， 我 们 已 讨论 了 体系 结构 、 协 议 、 协 议 族 和 抽象 的 实现 技术 。 在 本 节 中 ， 我 
们 将 讨论 构成 TCP/IP 协议 族 的 体系 结构 和 特定 协议 。 虽 然 这 已 成 为 Internet 使 用 的 协议 的 
既定 术语 ， 但 是 也 有 很 多 TCP 和 IP 之 外 的 协议 被 包含 在 Internet 使 用 的 协议 集 或 协议 族 中 。 
我 们 将 从 最 终 形成 Internet 协议 分 层 基础 的 ARPANET 参考 模型 开始 ， 研 究 它 与 前 面 讨论 的 
OSI 参考 模型 的 区 别 。 


1.3.1 ARPANET 参考 模型 


图 1-5 描述 了 源 于 ARPANET 参考 模型 的 分 层 ， 它 最 终 被 TCP/IP PRA. ENB 
构 比 OSI 模型 更 简单 ， 但 在 实现 中 包括 一 些 特定 协议 ， 并 且 不 适合 于 常规 层次 的 简化 。 


描述 /例子 






主机 


所 有 网 络 设备 





图 1-5 基于 ARM 或 TCP/IP 的 协议 分 层 被 用 于 Internet。 这 里 没有 正式 的 会 话 或 表示 层 。 另 外 ， 这 里 
有 几 个 不 适合 归 入 标准 层 的 “附属 ”或 辅助 协议 ， 它 们 为 其 他 协议 的 运行 提供 重要 功能 。 其 中 
有 些 协议 没有 被 IPv6 使 用 (例如 IGMP 和 ARP) 


从 图 1-5 底部 沿 着 协议 栈 上 移 ， 我 们 首先 看 到 的 层次 是 2.5， 这 是 一 个 “ 非 正式 ”的 层 。 
有 几 个 协议 工作 在 这 层 ， 一 个 最 古老 和 最 重要 的 协议 是 地 址 解析 协议 (ARP)。 它 是 IPv4 的 
专用 协议 ， 只 用 于 多 接 人 链 路 层 协议 〈 例 如 以 太 网 和 Wi-Fi), SER IP 层 使 用 的 地 址 和 链 路 层 
使 用 的 地 址 之 间 的 转换 。 我 们 将 在 第 4 章 讨论 这 个 协议 。IPv6 的 地 址 映射 功能 作为 ICMPv6 
的 一 部 分 ， 我 们 将 在 第 8 章 讨论 。 

我 们 在 图 1-5 中 编号 为 3 的 层 中 看 到 IP， 它 是 TCP/IP 中 最 重要 的 网 络 层 协议 。 我 们 将 
在 第 5 章 讨论 它 的 细节 。IP 发 送 给 链 路 层 协议 的 PDU 称 为 卫 数 据 报 ， 它 的 大 小 是 64KB 
(IPv6 将 它 扩大 为 4GB)。 在 很 多 情况 下 ， 当 使 用 的 上 下 文 是 清晰 的 ， 我 们 将 会 使 用 简化 的 术 
语 “分 组 ”来 表示 IP 数据 报 。 大 的 分 组 放 入 链 路 层 PDU ( 称 为 帧 ) 时 需要 进行 缩小 处 理 ， 这 
个 过 程 称 为 分 片 ， 它 通常 由 IP 主机 和 某 些 路 由 器 在 必要 时 执行 。 在 分 片 的 过 程 中 ， 大 数据 
报 的 一 部 分 被 放 人 多 个 称 为 分 片 的 小 数据 报 中 ， 并 在 到 达 目 的 地 后 组 合 〈 称 为 重组 )。 我 们 
将 在 第 10 章 中 讨论 分 片 。 

在 本 书 中 ， 我 们 使 用 术语 IP 表示 IP 版 本 4 和 6， 使 用 IPv6 表示 IP 版 本 6， 并 使 用 IPv4 
表示 IP 版 本 4， 它 是 当前 最 流行 的 版 本 。 在 讨论 体系 结构 时 ， 我 们 很 少 关 注 IPv4 和 IPv6 的 
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细节 。 当 我 们 讨论 寻 址 和 配置 的 工作 原理 (第 2 章 和 第 6 章 ) 时 ， 这 些 细节 将 变 得 更 重要 。 

由 于 每 个 全 分 组 都 是 一 个 数据 报 ， 所 以 都 包含 发 送 方 和 接收 方 的 第 3 层 地 址 。 这 些 地 
址 称 为 IP 地 址 ， 即 32 位 的 IPv4 地 址 或 128 位 的 IPv6 地 址 ; 我 们 将 在 第 2 章 详细 讨论 它们 。 
IP 地 址 长 度 不 同 是 IPv4 和 IPv6 之 间 的 最 大 差别 。 每 个 数据 报 的 目的 地 址 用 于 决定 将 该 数据 
报 发 送 到 哪里 ， 而 做 出 此 决定 和 发 送 数据 报到 下 一 跳 的 过 程 称 为 转发 。 路 由 器 和 主机 都 能 进 
行 转发 ， 但 更 多 的 是 由 路 由 器 实现 转发 。 这 里 有 3 种 类 型 的 IP 地 址 ， 地 址 类 型 决定 如 何 进行 
转发 : 单 播 (目的 地 是 一 台 主 机 )、 广 播 (目的 地 是 一 个 指定 网 络 中 的 所 有 主机 ) 和 组 播 ( 目 
的 地 是 属于 一 个 组 播 组 中 的 一 组 主机 )。 第 2 章 将 详细 介绍 与 IP 一 起 使 用 的 地 址 类 型 。 

Internet 控制 消息 协议 (ICMP) 是 IP 的 一 个 辅助 协议 ， 我 们 将 它 标 注 为 3.5 层 协议 。IP 
层 使 用 它 与 其 他 主机 或 路 由 器 的 IP 层 之 间 交 换 差错 消息 和 其 他 重要 信息 。 ICMP 有 两 个 版 本 : 
IPv4 使 用 的 ICMPv4，IPv6 使 用 的 ICMPv6。ICMPv6 是 相当 复杂 的 ， 包 括 地 址 自动 配置 和 
邻居 发 现 等 功能 ， 它 们 在 IPv4 网 络 中 由 其 他 协议 (例如 ARP) 处 理 。 昌 然 ICMP EH Hh IP 
使 用 ， 但 它 也 能 被 其 他 应 用 使 用 。 事 实 上 ， 两 个 流行 的 诊断 工具 (ping 和 traceroute) 都 使 用 
ICMP., ICMP 消息 被 封装 在 IP 数据 报 中 ， 采 用 与 传输 层 PDU 相同 的 封装 方式 。 

Internet 组 管理 协议 (IGMP) 是 IPv4 的 另 一 个 辅助 协议 。 它 采用 组 播 寻 址 和 交付 来 管理 
作为 组 播 组 成 员 的 主机 (一 组 接收 方 接收 一 个 特定 目的 地 址 的 组 播 流量 )。 我 们 在 这 里 只 描 
述 广播 和 组 播 的 一 般 特 点 ， 在 第 9 章 介绍 IGMP 和 组 播 监 听 发 现 (MLD， 用 于 IPv6 ) 协议 。 

在 第 4 层 中 ， 常 见 的 两 种 Internet 传输 协议 有 很 大 区 别 。 广 泛 使 用 的 传输 控制 协议 
(TCP) 会 处 理 数据 包 丢 失 、 重 复 和 重新 排序 等 IP 层 不 处 理 的 问题 。 它 采用 面向 连接 (VC) 
的 方式 ， 并 且 不 保留 消息 边界 。 相 反 ， 用 户 数据 报 协议 (UDP) 仅 提 供 比 全 协议 稍 多 的 功 
能 。UDP 允许 应 用 发 送 数据 报 并 保留 消息 边界 ， 但 不 强制 实现 速率 控制 或 差错 控制 。 

TCP 在 两 台 主 机 之 间 提 供 可 靠 的 数据 流传 输 。TCP 涉及 很 多 工作 ， 例 如 将 来 自 应 用 的 
数据 分 解 成 在 网 络 层 中 传输 的 适当 尺寸 的 块 ， 确 认 接 收 到 的 分 组 和 设置 超时 ， 以 便 对 方 能 够 
确认 自己 发 送 的 分 组 。 由 于 传输 层 提供 这 种 可 靠 的 数据 流 ， 所 以 应 用 层 可 以 忽略 这 些 细节 。 
TCP 发 送 到 IP 的 PDU 称 为 TCP 段 。 

另 一 方面 ，UDP 为 应 用 层 提 供 一 种 更 简单 的 服务 。 它 允许 将 数据 报 从 一 台 主 机 发 送 到 另 
一 台 主 机 ， 但 不 保证 数据 报 能 到 达 另 一 端 。 任 何 可 靠 性 都 需要 由 应 用 层 提供 。 事 实 上 ，UDP 
所 做 的 是 提供 一 套 端 口号 ， 用 于 复 用 、 分 解数 据 和 校 验 数据 的 完整 性 。 正 如 我 们 所 看 到 的 ， 
即使 UDP 和 TCP 在 同一 层次 ， 它 们 也 是 完全 不 同 的 。 这 里 给 出 每 种 传输 层 协议 的 用 途 ， 我 
们 可 看 到 使 用 TCP 和 UDP 的 不 同 应 用 。 

这 里 还 有 两 个 传输 层 协议 ， 它 们 相对 比较 新 ， 并 被 用 于 某 些 系 统 中 。 由 于 它们 的 使 用 还 
不 是 很 广泛 ， 所 以 我 们 没 对 它们 进行 太 多 讨论 ， 但 它们 是 值得 注意 的 。 首 先是 数据 报 拥 塞 控制 
协议 (DCCP)， 它 在 [RFC4340] 中 定义 。 它 提供 了 一 种 介 于 TCP 和 UDP 之 间 的 服务 类 型 : 面 
向 连接 、 不 可 靠 的 数据 报 交换 ， 但 具有 拥塞 控制 功能 。 拥 塞 控 制 包括 发 送 方 控制 发 送 速率 的 多 
种 技术 ， 以 避免 流量 堵塞 整个 网 络 。 我 们 将 在 第 16 章 中 结合 TCP 详细 介绍 拥塞 控制 。 

另 一 个 是 流 控 制 传输 协议 (SCTP)， 它 在 [RFC4960] 中 定义 ， 是 用 于 某 些 特定 系统 的 传 
输 协 议 。SCTP 提供 类 似 于 TCP 的 可 靠 交 付 ， 但 不 要 求 严 格 保持 数据 的 顺序 。 它 还 允许 多 
个 数据 流 逻 辑 上 在 同一 连接 上 传输 ， 并 提供 了 一 个 消息 抽象 ， 这 是 它 与 TCP 的 主要 区 别 。 
SCTP 用 于 在 IP 网 络 上 携带 信 令 消息 ， 这 类 似 于 某 些 电话 网 络 中 的 用 途 。 

在 传输 层 之 上 ， 应 用 层 负责 处 理 特定 应 用 的 细节 。 有 很 多 常见 的 应 用 ， 几 乎 每 个 应 用 的 
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实现 都 是 基于 TCP/IP 的 。 应 用 层 与 应 用 的 细节 有 关 ， 但 与 网 络 中 的 数据 传输 无 关 。 较 低 的 
三 层 则 相反 : 它们 对 具体 应 用 一 无 所 知 ， 但 需要 处 理 所 有 的 通信 细节 。 


1.3.2 TCP/IP 中 的 复 用 、 分 解 和 封装 


我 们 已 讨论 了 协议 复 用 、 分 解 和 封装 的 基础 内 容 。 每 层 都 会 有 一 个 标识 符 ， 人 允许 接收 方 
决定 哪些 协议 或 数据 流 可 复 用 在 一 起 。 每 层 通常 也 有 地 址 信息 ， 它 用 于 保证 一 个 PDU 被 交 
付 到 正确 的 地 方 。 图 1-6 模拟 了 如 何在 一 台 Internet 主机 上 进行 分 解 。 







IPv4 协 议 字段 (IPv6 中 的 
下 一 个 头 部 字段 ) 的 分 解 
检查 网 络 层 的 目的 地 址 


类 型 字段 的 分 解 
检查 链 路 层 的 目的 地 址 
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图 1-6 TCP/IP 协议 栈 将 地 址 信息 和 协议 分 解 标识 符 相 结合 ， 以 决定 一 个 数据 报 是 否 被 正确 接收 ， 以 及 
哪个 实体 将 会 处 理 该 数据 报 。 有 几 层 还 会 检测 数值 (例如 校 验 和 )， 以 保证 内 容 在 传输 中 没有 损坏 


虽然 它 不 是 TCP/IP 协议 族 的 真实 部 分 ， 但 我 们 也 能 自 底 向 上 地 说 明 从 链 路 层 开 始 如 何 
进行 分 解 ， 这 里 使 用 以 太 网 作为 例子 。 我 们 在 第 3 章 讨 论 几 种 链 路 层 协议 。 以 太 网 帧 包含 
一 个 48 位 的 目的 地 址 (又 称 为 链 路 层 或 介质 访问 控制 (MAC) 地 址 ) 和 一 个 16 位 的 以 太 网 
类 型 字段 。0x0800 (十 六 进 制 ) 表示 这 个 帧 包含 IPv4 数据 报 。0x0806 和 0x86DD 分 别 表 示 
ARP 和 IPv6。 假 设 目 的 地 址 与 接收 方 的 一 个 地 址 匹配 ， 这 个 帧 将 被 接收 并 校 验 差错 ， 以 太 
网 类 型 字段 用 于 选择 处 理 它 的 网 络 层 协 议 。 

如 果 接 收 到 的 帧 包含 一 个 卫 数据 报 ， 以 太 网 头 部 和 尾部 信息 将 被 清除 ， 并 将 剩余 字 节 ( 包 
含 帧 的 有 效 载 荷 ?) 交 给 IP HEADS, IP 检测 一 系列 的 字段 ， 包 括 数 据 报 中 的 目的 IP 地 址 。 如 果 
目的 地 址 与 自己 的 一 个 卫 地 址 匹配 ， 并 且 数 据 报头 部 ( 卫 不 检测 有 效 载荷 ) 没有 错误 ， 则 检 
W 8 位 的 IPv4 协议 字段 (在 IPv6 中 称 为 下 一 个 头 部 字段 )， 以 决定 接 下 来 调用 哪个 协议 来 处 理 。 
常见 的 值 包括 1 (ICMP), 2 (IGMP), 4 (IPv4)、6 (TCP) 和 17 (UDP)。 数 值 4 (和 41， 表 示 
IPv6 ) 的 含义 是 有 趣 的 ， 因 为 它 表示 一 个 他 数据 报 可 能 出 现在 另 一 个 P 数据 报 的 有 效 载荷 中 。 
它 违反 了 分 层 和 封装 的 原 有 概念 ， 但 是 作为 隧道 技术 的 基础 ， 我 们 在 第 3 章 进行 更 多 讨论 。 

如 果 网 络 层 (IPv4 或 IPv6 ) 认为 传人 的 数据 报 有 效 ， 并 且 已 确定 正确 的 传输 层 协议 ， 则 
将 数据 报 (必要 时 由 分 片 重组 而 成 ) 交 给 传输 层 处 理 。 在 传输 层 中 ， 大 部 分 协议 (包括 TCP 
和 UDP) 通过 端口 号 将 复 用 分 解 到 适当 的 应 用 。 


O 在 不 产生 歧义 的 情况 下 ,“ 有 效 载荷 ” (payload) 也 简称 为 “负载 ”。 一 一 译 者 注 
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1.3.3 ”端口 号 


端口 号 是 16 位 的 非 负 整数 (范围 是 0 ~ 65535 ) 。 这 些 数字 是 抽象 的 ， 在 物理 上 没有 指 
任何 东西 。 相 反 ， 每 个 IP 地 址 有 65536 个 可 用 的 端口 号 ， 每 个 传输 协议 可 使 用 这 些 端口 号 
(在 大 多 数 情况 下 )， 它 们 被 用 于 确定 正确 的 接收 数据 的 具体 服务 。 对 于 客户 机 /服务 器 应 用 
( 见 1.5.1 节 )， 一 台 服 务 器 首先 “ 绑 定 ”到 一 个 端口 号 ， 然 后 一 个 或 多 个 客户 机 可 使 用 某 种 特 
定 的 传输 协议 与 一 台 服 务 器 上 的 端口 号 建立 连接 。 从 这 个 意义 上 来 说 ， 端 口号 的 功能 更 像 电 
话 号 码 的 扩展 ， 差 别 是 它们 通常 是 由 某 个 标准 来 分 配 。 

标准 的 端口 号 由 Internet 号 码 分 配 机 构 (IANA) 分 配 。 这 组 数字 被 划分 为 特定 范围 ， 包 括 
熟知 端口 号 (0 ~ 1023 )、 注 册 端口 号 (1024 ~ 49151) 和 动态 /私有 端口 号 (49152 ~ 65535 )。 
在 传统 上 ， 服 务 器 需要 绑 定 到 ( 即 在 上 面 提供 服务 ) 一 个 熟知 端口 ， 它 需要 管理 员 或 “ 根 ” 访 
问 这 样 的 特殊 权限 。 

熟知 端口 用 于 识别 很 多 众所周知 的 服务 ， 例 如 安全 外 壳 协 议 (SSH， 端 口 22 )、FTP( 端 
口 20 和 21 )、Telnet 远程 终端 协议 (端口 23 )、 电 子 邮 件 / 简单 邮件 传输 协议 (SMTP, Yi 
口 25 )、 域 名 系统 ( DNS， 端口 53 )、 超 文本 传输 协议 或 Web (HTTP 和 HTTPS， 端 口 80 
和 443 )、 交 互 式 邮件 访问 协议 (IMAP 和 IMAPS， 端 口 143 和 993 )、 简 单 网 络 管理 协议 
(SNMP, 端口 161 和 162 )、 轻 量 级 目录 访问 协议 (LDAP， 端口 389 )， 以 及 其 他 几 种 服务 。 
拥有 多 个 端口 的 协议 (例如 HTTP 和 HTTPS) 通常 使 用 不 同 端口 号 ， 这 取决 于 是 否 将 传输 层 
安全 (TLS) 与 基础 的 应 用 层 协议 共同 使 用 ( 见 第 18 章 )。 


注意 ”如果 我 们 测试 这 些 标准 服务 和 其 他 TCP/IP IRS (Telnet, FTP, SMTP 等 ) 
使 用 的 端口 号 ,会 发 现 它 们 大 多 数 是 奇数 。 这 是 有 历史 原因 的 ， 这 些 端口 号 从 
NCP 端口 号 派生 而 来 (NCP 是 网 络 控制 协议 ， 在 TCP 之 前 作为 ARPANET 的 传输 
层 协议 )。NCP 虽然 简单 ， 但 不 是 全 双 工 的 ， 因 此 每 个 应 用 需要 两 个 连接 ， 并 为 每 
个 应 用 保留 奇偶 成 对 的 端口 号 。 当 TCP 和 UDP 成 为 标准 的 传输 层 协 议 时 ， 每 个 应 
用 只 需要 一 个 端口 号 ， 因 此 来 自 NCP 的 奇数 端口 号 被 使 用 。 


注册 端口 号 提供 给 有 特殊 权限 的 客户 机 或 服务 器 ， 但 IANA 会 维护 一 个 为 特定 用 途 而 
保留 的 注册 表 ， 开 发 新 应 用 时 通常 应 避免 使 用 这 些 端 口号 ， 除 非 你 已 购买 某 些 IANA 分 配 的 
端口 号 。 动 态 / 私有 端口 号 基本 不 受 监 管 。 正 如 我 们 所 看 到 的 ， 在 某 些 情况 下 (例如 在 客户 
端 )， 端 口号 的 值 无 关 紧 要 ， 这 是 因为 它们 只 是 短期 被 使 用 。 这 些 端 口号 又 称 为 临时 端口 号 。 
它们 被 认为 是 临时 的 ， 因 为 客户 机 只 需 支 持 一 个 应 用 的 客户 程序 ， 并 不 需要 被 服务 器 发 现 以 
建立 一 个 连接 。 相 反 ， 服 务 器 通常 需要 不 变 的 名 称 和 端口 号 ， 以 便 被 客户 机 所 发 现 。 


1.3.4 ”名称 、 地 址 和 DNS 


在 TCP/IP 中, 每 台 计算 机 (包括 路 由 器 ) 的 每 个 链 路 层 接 口 至 少 有 一 个 JP 地 址 。IP 地 
址 足以 识别 主机 ， 但 它们 不 方便 被 人 们 记忆 或 操作 (尤其 是 更 长 的 IPv6 地 址 )。 在 TCP/IP 
环境 中 ，DNS 是 一 个 分 布 式 数据 库 ， 提 供 主 机 名 和 IP 地 址 之 间 的 映射 (反之 亦 然 )。 域 名 建 
立 是 有 层次 的 ， 以 .com、.org、.gov、.in、.uk 和 .edu 等 域 结尾 。DNS 是 一 个 应 用 层 协议 ， 
因此 它 的 运行 依赖 于 其 他 协议 。 虽 然 大 多 数 TCP/IP 协议 不 必 关 心 域名 ,但 用 户 (例如 使 用 
Web 浏览 器 ) 通常 会 频繁 使 用 域名 ， 因 此 如 果 DNS 不 能 正常 工作 ， 正 常 的 Internet 访问 也 难 
以 使 用 。 第 11 章 将 详细 介绍 DNS。 
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执行 域名 操作 的 应 用 可 以 调用 一 个 标准 的 API 函数 ( 见 1.5.3 节 )， 将 需要 查找 的 IP 地 址 
(或 地 址 ) 对 应 到 一 个 主机 名 。 同 样 ， 另 一 个 函数 提供 反 向 查找 功能 ， 为 一 个 给 定 的 IP 地 址 
查找 对 应 的 主机 名 。 大 多 数 应 用 程序 将 主机 名 作为 输入 ,但 是 经 常 也 需要 一 个 IP 地址 。Web 
浏览 器 支持 这 种 功能 。 例 如 ， 在 浏览 器 中 输入 统一 资源 定位 符 (URL), http://131.243.2.201/ 
index.html 和 http://[2001:400:610:102::C9]/index.html, È 们 等 效 于 http://ee.lbl.gov/index. 
html (在 写作 时 ， 第 二 个 例子 需要 成 功 建立 IPv6 连接 )。 


1.4 Internet、 内 联网 和 外 联网 


如 前 所 述 ，Internet (因特网 ) 已 发 展 成 为 由 很 多 网 络 互联 起 来 的 网 络 集合 。 小 写字 和 母 
开头 的 internet 表示 使 用 常见 协议 族 互联 的 多 个 网 络 。 大 写字 母 开 头 的 Internet 表示 可 使 用 
TCP/IP 通信 的 世界 范围 的 主机 集合 。Internet 是 一 个 internet， 但 反 过 来 说 是 错误 的 。 

组 网 在 20 世纪 80 年 代 得 到 快速 发 展 的 原因 之 一 ， 那 就 是 很 多 相互 隔离 的 单机 系统 组 合 
起 来 后 作用 并 不 明显 。 几 个 独立 的 系统 连接 起 来 组 成 一 个 网 络 。 虽 然 已 向 前 迈进 了 一 步 ， 但 
我 们 在 20 世纪 90 年 代 意 识 到 ， 不 能 互 操作 的 独立 网 络 不 如 一 个 更 大 的 网 络 有 价值 。 这 个 概 
念 是 Metcalfe 定律 的 基础 ， 计 算 机 网 络 价值 大 致 与 连接 的 端 系统 (例如 用 户 或 设备 ) 数量 的 
平方 成 正比 。Internet 构想 和 它 支 持 的 协议 使 不 同 网 络 互 联 成 为 可 能 。 实 际 上 ， 这 个 看 似 简 
单 的 概念 非常 有 用 。 

最 容易 的 方式 是 构造 一 个 由 路 由 器 连接 两 个 或 多 个 网 络 的 互联 网 络 。 路 由 器 通常 是 连接 
网 络 的 一 台 专用 设备 ， 其 优点 是 提供 很 多 不 同 物理 网 络 的 连接 ， 例 如 以 太 网 、Wi-Fi、 点 到 
AHER, DSL, EH Internet 服务 等 。 


注意 这 些 设备 又 被 称 为 IP 路 由 器 ,但 我 们 将 使 用 路 由 器 这 个 术语 。 这 些 设备 在 
历史 上 曾 被 称 为 网 关 ， 这 个 术语 用 于 很 多 比较 旧 的 TCP/IP 文献 中 。 当 前 的 网 关 术 
语 用 于 表示 应 用 层 网 关 ( ALG)， 它 为 一 个 特定 应 用 (通常 是 电子 邮件 或 文件 传输 ) 
连接 两 个 不 同 协议 族 (TCP/IP 和 IBM 的 SNA)。 


近年 来 ， 一 些 其 他 术语 已 被 采用 TCP/IP 协议 的 各 种 互联 网 络 所 采纳 。 内 联网 是 一 个 用 
于 描述 专用 互联 网 络 的 术语 ， 它 通常 由 一 个 商业 机 构 或 其 他 企业 来 运行 。 大 多 数 情 况 下 ， 内 
联网 提供 的 访问 资源 只 供 特 定 企 业 的 成 员 使 用 。 用 户 可 使 用 虚拟 专用 网 ( VPN) 连接 到 ( 例 
如 企业 ) 内 联网 。VPN 有 助 于 保证 内 联网 中 潜在 的 敏感 资源 只 供 授权 用 户 访问 ， 它 通常 使 用 
前 面 提 到 的 隧道 概念 。 我 们 将 在 第 7 章 详细 讨论 VPN。 

在 很 多 情况 下 ， 一 个 企业 或 商业 机 构 可 能 希望 建立 一 个 网 络 ， 其 中 包含 可 供 合作 伙伴 或 
其 他 相关 公司 通过 Internet 访问 的 服务 器 。 这 种 涉及 VPN 的 网 络 通常 被 称 为 外 联网 ， 由 连接 
在 提供 服务 的 企业 防火 墙 之 外 的 计算 机 组 成 ( 见 第 7 章 )。 从 技术 上 来 说 ， 内 联网 、 外 联网 
和 Internet 之 间 的 差别 不 大 ,但 使 用 方式 和 管理 策略 通常 不 同 ， 并 由 此 出 现 更 多 的 专业 术语 。 


1.5 设计 应 用 

到 目前 为 止 ， 我 们 已 接触 的 网 络 概念 提供 了 一 个 简单 的 服务 模型 [RFC6250] : 在 运行 于 
不 同 (或 相同 ) 计算 机 上 的 程序 之 间 传 输 数据 。 通 过 这 种 能 力 可 完成 任何 有 用 的 事 。 我 们 需 
要 使 用 网 络 应 用 来 提供 服务 或 执行 计算 。 网 络 应 用 的 典型 结构 基于 少数 几 种 模式 。 最 常见 的 
模式 是 客户 机 /服务 器 模式 和 对 等 模式 。 
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1.5.1 客户 机 /服务 器 


大 多 数 网 络 应 用 被 设计 为 一 端 是 客户 机 ， 而 男 一 端 是 服务 器 。 服 务 器 为 客户 机 提供 某 类 
服务 ， 例 如 访问 服务 器 主机 中 的 文件 。 我 们 可 以 将 服务 器 分 为 两 类 : 和 迭代 和 并 发 。 和 迭代 服务 
器 经 过 以 下 步骤: 

ll. 等 待 客户 机 请 求 到 达 。 

I2. 处 理 客户 机 请 求 。 

13. 将 响应 发 送 给 请 求 的 客户 机 。 

14. 回 到 步骤 Ilo 

迭代 服务 器 的 问题 是 步骤 I 需要 经 过 较 长 时 间 。 在 此 期 间 ， 无 法 为 其 他 客户 机 服务 。 
并 发 服务 器 经 过 以 下 步骤 : 

Cl. 等 待 客户 机 请 求 到 达 。 

C2. 启用 一 个 新 服务 器 实例 来 处 理 客户 机 请 求 。 这 可 能 涉及 创建 一 个 新 的 进程 、 任 务 或 
线程 ， 它 依赖 于 底层 操作 系统 的 支持 。 这 个 新 的 服务 器 处 理 一 个 客户 机 的 全 部 请 求 。 当 请 求 
的 任务 完成 后 ， 这 个 新 的 服务 器 终止 。 同 时 ， 原 有 服务 器 实例 继续 执行 C3。 

C3. 回 到 步骤 C1. 

并 发 服务 器 的 优点 是 服务 器 只 产生 其 他 服务 器 实例 ， 并 由 它们 来 处 理 客户 机 请 求 。 本 质 
上 ,每 个 客户 都 有 自己 的 服务 器 。 假 设 操作 系统 支持 多 个 程序 (目前 所 有 操作 系统 基本 都 支 
持 )， 则 多 个 客户 机 可 以 同时 得 到 服务 。 我 们 将 原因 归于 服务 器 而 不 是 客户 机 ， 这 是 由 于 客 
户 机 通常 无 法 判断 与 它 通信 的 是 迭代 或 并 发 服务 器 。 大 多 数 服 务 器 通常 是 并 发 的 。 

注意 ， 我 们 使 用 术语 客户 机 和 服务 器 表示 应 用 ， 而 不 是 应 用 所 运行 的 特定 计算 机 系统 。 
相似 的 术语 有 时 用 于 表示 执行 客户 机 或 服务 器 应 用 的 硬件 。 虽 然 这些 术 语 有 时 并 不 准确 ， 但 
它们 在 实际 应 用 中 表现 良好 。 因 此 ， 我 们 通常 发 现 一 个 服务 器 〈 硬 件 ) 上 运行 着 多 个 服务 器 
(应 用 )。 


1.5.2 ”对 等 


有 些 应 用 以 更 分 布 式 的 形式 设计 ， 其 中 没有 专门 的 服务 器 。 相 反 ， 每 个 应 用 既 
是 客户 机 ， 又 是 服务 器 ， 有 时 同时 是 两 者 ， 并 能 转发 请 求 。 有 些 很 流行 的 应 用 (例如 
Skype[SKYPE]、BitTorrent[BT]) 采用 这 种 形式 。 这 种 应 用 称 为 对 等 或 P2P 应 用 。 并 发 的 
P2P 应 用 接收 到 传人 的 请 求 ， 确 定 它 是 否 能 响应 这 个 请 求 ， 如 果 不 能 ， 将 这 个 请 求 转发 给 其 
他 对 等 方 。 因 此 ， 一 组 P2P 应 用 共同 形成 一 个 应 用 网 络 ， 也 称 为 履 盖 网 络 。 目 前 ， 这 种 覆盖 
网 络 是 常见 的 ， 并 且 功 能 强大 。 例 如 ，Skype 已 发 展 成 国际 电话 呼叫 的 最 大 运营 商 。 根 据 某 
titit, 在 2009 年 ，BitTorrent 已 占 所 有 Internet 流量 的 一 半 以 上 [IPIS]。 

P2P 网 络 的 一 个 主要 问题 是 发 现 服 务 。 也 就 是 说 ， 一 个 对 等 方 如 何在 一 个 网 络 中 发 现 提供 
它 所 需 的 数据 或 服务 的 其 他 对 等 方 ， 以 及 可 能 进行 交互 的 那些 对 等 方 的 位 置 ? 这 通常 由 一 个 引 
导 程 序 来 处 理 ， 以 便 每 个 客户 机 在 最 初 配置 中 使 用 它 所 需 的 对 等 方 的 地 址 和 端口 号 。 一 旦 连接 
成 功 ， 新 的 参与 者 向 其 他 活跃 的 对 等 方 发 出 请 求 ， 并 根据 协议 获得 对 等 方 提供 的 服务 或 文件 。 


1.5.3 ”应 用 程序 编程 接口 


无 论 是 P2P 或 客户 机 / 服务器， 都 需要 表述 其 所 需 的 网 络 操作 (例如 建立 一 个 连接 、 写 
人 或 读 取 数据 )。 这 通常 由 主机 操作 系统 使 用 一 个 网 络 应 用 程序 编程 接口 ( API) 来 实现 。 最 


wk 15 


流行 的 API 被 称 为 套 接 字 或 Berkeley 套 接 字 ， 它 最 初 由 [LJFK93] 开发 。 

本 书 不 是 讲述 网 络 编程 的 ， 我们 只 是 通过 介绍 它 说 明 TCP/IP 的 特点 ， 以 及 哪个 特点 是 
由 套 接 字 API 提供 的 。 针 对 套 接 字 的 编程 例子 细节 见 [SFR04]。 对 于 IPv6 的 套 接 字 修 改 的 描 
述 ， 大 量 在 线 文档 [RFC3493][RFC3542][RFC3678] [RFC4584][RFC5014] 免费 提供 。 
1.6 ”标准 化 进程 

刚 接 触 TCP/IP 协议 族 的 新 手 通常 不 了 解 谁 负责 各 种 协议 的 制定 和 标准 化 ， 以 及 它们 如 
何 运 作 。 有 些 组 织 负责 解决 这 个 问题 。 我 们 最 常 关注 的 组 织 是 Internet 工程 任务 组 (IETF) 
[RFC4677]。 这 个 组 织 每 年 在 世界 不 同 地 点 举行 3 次 会 议 ， 以 便 开发 、 讨 论 和 通过 Internet 
的 “核心 ”协议 标准 。 究 竟 什 么 构成 “核心 ”是 有 争论 的 ,但 常见 协议 (例如 IPv4、IPv6、 
TCP, UDP 和 DNS) 显然 属于 此 列 。IETEF 会 议 对 所 有 人 开放 ， 但 它 不 是 免费 的 。 

IETF 是 一 个 论坛 ， 它 选举 出 称 为 Internet 架构 委员 会 (IAB) 和 Internet 工 程 指导 组 
(IESG) 的 领导 组 织 。IAB 负责 提供 IETF 活动 指导 和 执行 其 他 任务 ， 例 如 任命 其 他 标准 制定 组 
织 (SDO) 的 联络 员 。 IESG 具有 决策 权力 ， 可 以 修改 现 有 标准 ， 以 及 建立 和 审批 新 的 标准 。 "每 
重 ” 或 细致 的 工作 通常 由 IETF 工作 组 执行 ,工作 组 主席 负责 协调 执行 此 任务 的 志愿 者 。 

除了 IETF， 还 有 另外 两 个 重要 组 织 与 IETF 密切 合作 。Internet 研究 任务 组 (IRTF) 讨论 
那些 没有 成 熟 到 足以 形成 标准 的 协议 、 体 系 结构 和 程序 。IRTF 主席 是 TAB 的 列席 成 员 。IAB 
和 Internet 协会 (ISOC) 共同 影响 和 促进 世界 范围 的 有 关 Internet 技术 和 使 用 的 政策 和 培训 。 


1.6.1 RFC 


Internet 社会 中 的 每 个 官方 标准 都 以 一 个 RFC (征求 意见 ) 的 形式 发 布 。RFC 可 以 通过 
多 种 方式 创建 ，RFC RAH (REC 编者 ) 对 一 个 已 发 布 的 RFC 创建 多 个 文件 。 当 前 文件 (在 
2010 年) 包括 IETF, IAB, IRTF 和 独立 提交 的 文件 。 在 被 接受 并 作为 RFC 发 布 之 前 ,文件 
将 作为 临时 的 Internet 草案 存在 ， 在 编辑 和 审查 过 程 中 将 接收 意见 和 公布 进展 。 

不 是 所 有 REC 都 是 标准 。 只 有 标准 跟踪 类 别 的 RFC 被 认为 是 官方 标准 。 其 他 类 别 包括 
当前 最 佳 实践 (BCP)、 信 息 、 实 验 和 历史 。 重 要 的 是 ， 一 个 文件 成 为 一 个 RFC， 并 不 意味 着 
IETF 已 采纳 它 作为 标准 。 事 实 上 ， 针 对 现 有 RFC 有 明显 分 歧 。 

RFC 的 大 小 不 等 ， 从 几 页 到 几 百 页 。 每 个 RFC 由 一 个 数字 来 标识 ， 例 如 RFC 1122， 新 
RFC 被 赋予 更 大 的 数字 。 它 们 可 以 从 一 些 站 点 免费 获得 ， 包 括 http://www.rfceditor.org。 由 
于 历史 原因 ， 下 载 的 RFC 通常 是 基本 的 文本 文件 ， 虽 然 有 些 REC 已 使 用 更 先进 的 文件 格式 
来 格式 化 或 撰写 。 

许多 RFC 具有 特殊 意义 ， 它 们 总 结 、 澄 清 或 解释 其 他 一 些 特 殊 标 准 。 例 如 ，[RFC5000] 
定义 了 一 组 其 他 RFC (这 个 RFC 最 近 正 在 撰写 中 )， 它 们 在 2008 年 中 期 被 视 为 官方 标准 。 
一 个 更 新 列表 见 当 前 标准 站 点 [OIPSW]。 主 机 需求 RFC ( [RFC1122] 和 [RFC1123]) 定义 
Internet 中 IPv4 主机 的 协议 实现 ， 路 由 器 需求 RFC[RFC1812] 对 路 由 器 进行 相同 定义 。 节 点 
需求 RFC[RFC4294] 对 IPv6 系统 进行 上 述 定义 。 


1.6.2 ”其 他 标准 


虽然 IETF 负责 我 们 在 书 中 讨论 的 大 部 分 协议 的 标准 化 ,但 是 其 他 SDO 负责 定义 的 协议 
同样 值得 我 们 注意 。 这 些 重要 组 织 包 括 电 气 和 电子 工程 师 学 会 (IEEE)、 万 维 网 联盟 (W3C) 
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以 及 国际 电信 联盟 (ITU)。 在 本 书 描述 的 相关 活动 中 ，IEEE 关注 第 3 层 以 下 标准 〈 例 如 
Wi-Fi 和 以 太 网 )，W3C 关注 应 用 层 协议 ， 特 别 是 那些 涉及 Web 的 技术 (例如 基于 HTML 的 
W), ITU 特别 是 ITU-T (原来 的 CCITT) 标准 化 的 协议 用 于 电话 和 蜂窝 网 络 ， 它 正成 为 
Internet 中 一 个 越 来 越 重要 的 组 成 部 分 。 


1.7 ”实现 和 软件 分 发 


KRE, 标准 的 TCP/IP 实现 来 自 加 州 大 学 伯克利 分 校 计算 机 系统 研究 组 ( CSRG)。 它 
们 通过 4.x BSD 系统 发 布 ， 直 到 20 世纪 90 年 代 中 期 才 出 现 BSD 网 络 发 布 版 。 这 个 源 代 码 
已 成 为 许多 其 他 实现 的 基础 。 今 天 ， 每 个 流行 的 操作 系统 都 有 自己 的 实现 。 在 本 书 中 ,我 们 
倾向 于 以 Linux, Windows 的 TCP/IP 实现 为 例 ， 有 时 也 采用 FreeBSD 和 Mac OS《〈 两 者 都 由 
BSD 版 本 派生 而 来 )。 在 大 多 数 情况 下 ， 某 些 特定 实现 通常 无 关 紧要 。 

图 1-7 显示 了 各 种 BSD 版 本 的 年 代 列 表 ， 给 出 了 我 们 在 后 面 章节 中 涉及 TCP/IP 的 重要 
特点 。 它 也 显示 了 Linux 和 Windows 开始 支持 TCP/IP 的 时 间 。BSD 网 络 发 布 版 显示 在 第 二 
列 ， 它 是 免费 提供 的 公共 源 代码 发 布 版 ， 其 中 包括 所 有 网 络 代 码 ， 既 包括 协议 本 身 ， 又 包括 
很 多 应 用 程序 和 实用 工具 (例如 Telnet 远程 终端 程序 和 FTP 文件 传输 程序 )。 


需要 许可 证 


4.1aBSD ( 1981 ) 包含 
实验 版 本 的 BBN TCP/IP 


4.2BSD ( 1983 ) 
首 个 广泛 使 用 的 TCP/IP 发 布 版 


4.3BSD (1986) 
改进 TCP 性 能 


许可 证 免费 | 
4.3BSD Tahoe ( 1988 ) 
BSD 网 络 软件 «< TCP 快 速 重 传 和 拥塞 控制 


发 布 版 1.0 (1989 ) | 
Net/1 
4.3BSD Reno ( 1990 ) 
Linux 0.98 ( 1992 ) TCP 快 速 恢复 、 头 部 预测 、 
Wi 
Pte eae ad sen eer NCEE pret ) - ESLNS 
c3 ` ( PPP 的 前 任 ) 、 路 由 表 改 变 
Net/2 
Linux 0.99 ( 1992-9 ) | 
Windows for Workgroups 3.11 (1994 ) 修正 TCP/IP 错 误 4.4BSD(-Encumbered) ( 1993 ) 
微软 ( Wolverine ) 提供 的 4.4 BSD-Lite ( 1994 ) < 一 一 组 播 支持 、 超 长 管道 
最 初版 本 的 TCP/IP Linux 1.0.0 ( 1994 ) Net/3 
修正 更 多 TCP/IP 错 误 


Windows 95 ( 1995 ) 
微软 提供 的 集成 版 本 的 TCP/IP 


图 1-7 软件 版 本 支持 TCP/IP 的 历史 可 追溯 到 1995 年 。 各 种 BSD 版 本 率先 支持 TCP/IP。 在 20 世纪 
90 年 代 早 期 ， 由 于 BSD 版 本 的 合法 性 不 确定 ，Linux 最 初 是 为 PC 用 户 量 身 定制 的 代替 品 。 几 
年 后 ， 微 软 开 始 在 Windows 中 支持 TCP/IP 
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20 世纪 90 年 代 中 期 ，Internet 和 TCP/IP 已 很 好 地 被 实现 。 随 后 ， 所 有 流行 的 操作 系统 
都 开始 支持 TCP/IP 协议 。 通 过 研究 TCP/IP 的 新 特点 发 现 ， 之 前 首先 出 现在 BSD 版 本 中 的 
功能 ， 现 在 通常 首先 出 现在 Linux 版 本 中 。 最 近 ，Windows 已 实现 了 一 个 新 的 TCP/IP 协议 
Be (从 Windows Vista 开始 )， 它 具备 很 多 新 特点 和 本 地 IPv6 功能 。Linux、FreeBSD Mac 
OS X th HF IPv6， 并 且 不 需要 设置 任何 特殊 配置 选项 。 


1.8 5 Internet 体系 结构 相关 的 攻击 

在 整 本 书 中 ， 我 们 将 简要 描述 攻击 和 漏洞 ， 这 些 内 容 在 讨论 设计 或 实现 主题 时 已 谈 到 。 
很 少 有 攻击 将 Interet 体系 结构 整体 作为 目标 。 但 是 ， 值 得 注意 的 是 ，Internet 体系 结构 交付 
IP 数据 报 是 基于 目的 IP 地 址 。 因 此 ， 恶 意 用 户 能 在 自己 发 送 的 每 个 IP 数据 报 的 源 地 址 字段 
中 插入 任何 IP 地 址 ， 这 种 行为 称 为 欺骗 。 生 成 的 数据 报 被 交付 到 目的 地 ， 但 难以 确定 它 的 
真实 来 源 。 也 就 是 说 ， 很 难 或 不 能 确定 从 Internet 中 接收 的 数据 报 来 源 。 

欺骗 可 以 与 Internet 中 出 现 的 各 种 攻击 相 结合 。 拒 绝 服务 (DoS ) 攻击 通常 涉及 消耗 大 
量 的 重要 资源 ， 以 导致 合法 用 户 被 拒绝 服务 。 例 如 ， 向 一 台 服 务 器 发 送 大 量 IP 数据 报 ， 使 
它 花 费 所 有 时 间 处 理 接收 的 分 组 和 执行 其 他 无 用 的 工作 ， 这 是 一 种 类 型 的 DoS 攻击 。 有 些 
DoS 攻击 可 能 涉及 以 很 多 流量 堵塞 网 络 ， 导 致 其 无 法 发 送 其 他 分 组 。 这 通常 需要 使 用 很 多 计 
算 机 来 发 送 ， 并 形成 一 个 分 布 式 DoS (DDoS ) 攻击 。 

未 授权 访问 攻击 涉及 以 未 授权 方式 访问 信息 或 资源 。 它 可 以 采用 多 种 技术 来 实现 ， 例 如 
利用 协议 实现 上 的 错误 来 控制 一 个 系统 〈 称 为 占有 这 个 系统 ， 并 将 它 变 成 一 个 僵尸 )。 它 也 
可 以 涉及 各 种 形式 的 伪装 ， 例 如 攻击 者 的 代理 冒充 一 个 合法 用 户 (例如 运行 用 户 证 书 )。 有 
些 更 恶毒 的 攻击 涉及 使 用 恶意 软件 (malware) 控制 很 多 远程 系统 ， 并 以 一 种 协同 、 分 布 式 的 
方式 MAE P AB (botnets) ) 使 用 它们 。 那 些 出 于 (非法 ) 获 利 或 其 他 恶意 目的 而 有 意 开 
发 恶意 软件 和 利用 系统 的 程序 员 通 常 称 为 黑 己 。 所 谓 的 白 慢 也 在 利用 同样 的 技术 做 这 方面 的 
事情 ， 但 他 们 只 是 通知 系统 存在 漏洞 而 不 是 利用 它们 。 

关于 Internet 体系 结构 ， 值 得 注意 的 是 ， 最 初 的 nternet 协议 没有 进行 任何 加 密 ， 加 密 
可 用 于 支持 认证 、 完 整 性 或 保密 。 因 此 ， 恶 意 用 户 仅 通过 分 析 网 络 中 的 分 组 ,通常 就 可 以 获 
得 私人 信息 。 如 果 具 有 修改 传输 中 的 分 组 的 能 力 ， 他 就 可 以 冒充 用 户 或 更 改 消息 内 容 。 虽 然 
这 些 问题 由 于 加 密 协 议 ( 见 第 18 章 ) 而 显著 减少 ， 但 旧 的 或 设计 不 当 的 协议 有 时 在 简单 的 窃 
听 攻 击 面前 仍 很 脆弱 。 由 于 无 线 网 络 的 流行 ,“ 嗅 探 ” 其 他 人 发 送 的 分 组 比较 容易 ， 因 此 应 
避免 使 用 旧 的 或 不 安全 的 协议 。 注 意 ， 虽 然 可 在 某 层 (例如 Wi-Fi 网 络 的 链 路 层 ) 启用 加 密 ， 
但 只 有 主机 到 主机 的 加 密 ( IP 层 或 以 上 ) 能 保护 穿 过 多 个 网 段 ， 以 及 可 能 采用 遍历 方式 到 达 
最 终 目的 地 的 IP 数据 报 。 
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本 章 快速 浏览 了 网 络 体系 结构 和 设计 ， 特 别 是 TCP/IP 协议 族 的 概念 ， 后 面 章节 将 详细 
讨论 它们 。Internet 体系 结构 被 设计 成 支持 现 有 不 同 网 络 互 联 ， 同 时 提供 了 广泛 的 服务 和 协 
议 操 作 。 选 择 使 用 数据 报 的 分 组 交换 是 看 中 它 的 鲁 棒 性 和 效率 。 数 据 安 全 性 和 交付 可 预测 性 
(例如 有 限 的 延迟 ) 是 次 要 原因 。 

基于 对 操作 系统 分 层 和 模块 化 软件 设计 的 理解 ， 早 期 的 Internet 协议 实现 者 采纳 了 经 过 
封装 的 分 层 设计 。TCP/IP 协议 族 的 3 个 主要 层次 是 网 络 层 、 传 输 层 和 应 用 层 ， 我 们 前 面 提 到 
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过 每 层 具有 不 同 功能 。 我 们 还 提 到 了 链 路 层 ， 它 与 TCP/IP 协议 关系 密切 。 我 们 将 在 以 后 的 
章节 中 详细 讨论 。 

在 TCP/IP 中 ， 网 络 层 和 传输 层 之 间 的 区 别 至 关 重 要 : 网 络 层 (IP) 提供 了 一 个 不 可 靠 的 
数据 报 服务 ， 必 须 由 Internet 中 所 有 可 寻 址 的 系统 来 实现 ， 而 传输 层 (TCP 和 UDP) 为 端 主 
机 上 运行 的 应 用 程序 提供 了 端 到 端 服务 。 主 要 的 传输 层 协议 有 根本 性 的 差异 。TCP 提供 了 带 
流量 控制 和 拥塞 控制 的 有 序 、 可 靠 的 流 交 付 。 除 了 用 于 多 路 分 解 的 端口 号 和 错误 检测 机 制 之 
yh, UDP 提供 的 功能 基本 没有 超越 耻 。 但 是 ， 与 TCP AE, UDP 支持 组 播 交 付 。 

每 层 都 使 用 地 址 和 分 解 标识 符 ， 用 以 避免 混淆 不 同 协议 或 相同 协议 的 不 同 关联 /连接 。 
链 路 层 多 接 入 网 络 通常 使 用 48 位 地 址 ; IPv4 使 用 32 位 地 址 ，IPv6 使 用 128 位 地 址 。TCP 
和 UDP 传输 协议 使 用 一 系列 不 同 的 端口 号 。 有 些 端 口号 由 标准 来 分 配 ， 有 些 端口 号 是 临时 
使 用 的 ， 通 常 由 客户 端 与 服务 器 通信 时 使 用 。 端 口号 并 不 代表 任何 实际 内 容 ， 它 们 只 是 作为 
应 用 程序 与 对 方 通信 的 一 种 方式 。 

虽然 端口 号 和 IP 地 址 通常 足以 识别 Internet 中 的 一 个 服务 ， 但 它们 不 方便 人 们 记忆 或 使 
用 (特别 是 IPv6 地 址 )。 因 此 ，Internet 使 用 了 一 种 层次 结构 的 主机 名 ， 可 以 通过 DNS 将 主 
机 名 转换 为 IP 地址 (或 者 反 过 来 )， 而 DNS 是 一 个 运行 在 Internet 上 的 分 布 式 数据 库 应 用 程 
FF. DNS GACH Internet 基础 设施 中 的 重要 组 成 部 分 ， 我 们 应 尽力 使 它 以 更 安全 的 方式 运行 
( 见 第 18 章 )。 

HERK (internet) 是 一 个 网 络 集合 ， 其 中 最 常见 的 基本 设备 是 路 由 器 ， 它 被 用 于 在 IP 
层 连 接 多 个 网 络 。Internet 是 一 个 遍布 全 球 和 互联 近 两 亿 用 户 的 互联 网 络 (在 2010 年 )。 专 用 
的 互联 网 络 称 为 内 联网 ， 通 常 使 用 特殊 设备 (防火墙 ， 在 第 10 章 讨 论 ) 连接 Internet, EAT 
以 防止 未 授权 的 访问 企图 。 外 联网 通常 由 一 个 机 构 的 多 个 内 联网 组 成 ， 它 能 以 有 限 的 方式 被 
合作 伙伴 或 分 支 机 构 所 访问 。 

网 络 应 用 通常 采用 客户 机 / 服务 器 或 对 等 模式 设计 。 客 户 机 / 服务 器 是 更 流行 、 更 传统 的 
模式 ， 但 对 等 模式 也 获得 了 巨大 成 功 。 无 论 哪 种 设计 模式 ， 应 用 程序 都 要 调用 API 执行 网 络 
任务 。 最 常见 的 TCP/IP 网 络 API 称 为 套 接 字 。 它 由 BSD UNIX 发 布 版 提供 ， 其 软件 版 本 率先 
使 用 TCP/IP。20 世纪 90 ERR, TCP/IP 协议 族 和 套 接 字 API 被 用 于 所 有 流行 的 操作 系统 。 

安全 性 不 是 Internet 体系 结构 的 主要 设计 目标 。 由 于 端 主机 易于 自 改 不 安全 的 全 数据 报 
的 源 IP 地 址 ， 接 收 方 难以 确定 分 组 的 来 源 。 分 布 式 DoS 攻击 仍 是 一 个 挑战 ， 作 为 受害 者 的 
端 主机 形成 僵尸 网 络 进行 DDoS 和 其 他 攻击 ， 而 主机 所 有 者 通常 对 这 些 并 不 知情 。 最 后 ， 早 
期 的 Internet 协议 难以 保护 敏感 信息 的 隐私 ， 但 这 些 协议 中 的 大 多 数 当前 已 过 时 ， 其 现代 版 
本 通常 采用 加 密 方式 为 主机 之 间 通 信 提 供 保 密 和 认证 。 
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Internet 地 址 结构 





2.1 引言 


本 章 介绍 了 Internet 中 使 用 的 网 络 层 地 址 ， 又 称 为 IP 地 址 。 我 们 讨论 了 如 何 为 Internet 
中 的 设备 分 配 地 址 ， 有 助 于 路 由 可 扩展 性 的 地 址 层次 结构 分 配方 式 ， 以 及 特殊 用 途 的 地 址 ， 
包括 广播 、 组 播 和 任 播 地 址 。 我 们 还 讨论 了 IPv4 和 IPv6 地 址 结构 和 用 途 的 区 别 。 

连接 到 Internet 的 每 个 设备 至 少 有 一 个 全 Hott, SEF TCP/IP 协议 的 专用 网 络 中 使 用 的 
设备 也 需要 IP 地 址 。 在 任何 情况 下 ， 了 JP 路 由 器 ( 见 第 5 章 ) 实现 的 转发 程序 使 用 IP 地 址 来 
识别 流量 去 向 。IP 地 址 也 表示 流量 来 源 。IP 地 址 在 某 些 方面 与 电话 号 码 相 似 ， 但 最 终 用户 通 
常 知道 并 直接 使 用 电话 号 码 ， 而 IP 地 址 通常 被 Internet 中 的 DNS ( 见 第 11 章 ) 屏蔽 在 用 户 
视线 之 外 ，DNS 让 大 多 数 用 户 使 用 名 字 而 不 是 数字 地 址 。 当 用 户 需 要 自己 建立 网 络 或 DNS 
由 于 某 种 原因 失效 时 ， 用 户 需要 直接 处 理 耻 地 址 。 为 了 了 解 Internet 如 何 识别 主机 和 路 由 
器 ， 并 在 它们 之 间 实 现 流量 的 交付 ， 我 们 必须 了 解 IP 地 址 的 作用 。 因 此 ， 我 们 对 它们 的 管 
理 、 结 构 和 用 途 感 兴趣 。 

当 一 台 设 备 连接 到 全 球 性 的 Internet 时 ， 为 它们 分 配 地 址 就 必须 经 过 协调 ， 这 样 就 不 会 
重复 使 用 网 络 中 的 其 他 地 址 。 对 于 专用 网 络 ， 使 用 的 IP 地 址 必须 经 过 协调 ， 以 避免 在 专用 
网 络 中 出 现 类 似 的 重复 。 成 组 的 了 P 地 址 被 分 配给 用 户 和 组 织 。 这 些 地 址 的 拥有 者 再 将 它们 
分 配给 设备 ， 这 通常 根据 某 些 “编号 方案 ”进行 。 对 于 全 球 性 的 Internet 地 址 ， 一 个 分 层 结 
构 管理 实体 帮助 用 户 和 服务 提供 商 分 配 地 址 。 个 人 用 户 通 常 由 Internet 服务 提供 商 (ISP) 分 
配 地 址 ， 通 过 支付 费用 来 获得 地 址 和 执行 路 由 。 


2.2 表示 IP 地 址 

大 多 数 Internet FA RAZ IP 地址， 并 且 了 解 最 流行 的 地 址 类 型 : IPv4 地 址 。 这 些 地 址 
通常 采用 所 谓 的 点 分 四 组 或 点 分 十 进 制 表 示 法 ， 例 如 165.195.130.107。 点 分 四 组 表示 法 由 
四 个 用 点 分 隔 的 十 进 制 数组 成 。 每 个 这 样 的 数字 是 一 个 非 负 整 数 ， 范 围 为 [0, 255]， 代 表 
整个 下 地 址 的 四 分 之 一 。 点 分 四 组 表示 法 是 编写 完整 的 Pv 地 址 (一 个 用 于 Internet 系 
统 的 32 位 非 负 整数 ) 的 简单 方式 ， 它 使 用 便捷 的 十 进 制 数 。 在 很 多 情况 下 ， 我 们 将 关注 这 
种 地 址 的 二 进 制 结构 。 很 多 Internet 站 点 ， 例 如 http://www.subnetmask.info 和 http://www. 
subnetcalculatorcom， 包 含 用 于 IP 地 址 和 相关 信息 之 间 格 式 转换 的 计算 器 。 表 2-1 给 出 了 几 
个 IPv4 地 址 的 例子 ， 以 及 对 应 的 二 进 制 表示 ， 供 大 家 开始 学 习 。 


表 2-1 用 点 分 四 组 和 二 进 制 表示 法 写 的 1Pv4 地 址 


点 分 四 组 表示 二 进 制 表 示 
0.0.0.0 00000000 00000000 00000000 00000000 
1.2.3.4 00000001 00000010 00000011 00000100 
10.0.0.255 00001010 00000000 00000000 11111111 
165.195.130.107 10100101 11000011 10000010 01101011 


255.255.255.255 11111111 11111111 11111111 112111111 
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在 IPv6 中 ， 地 址 的 长 度 是 128 位 ， 是 IPv4 地 址 长 度 的 4 倍 。 一 般 来 说 ， 大 多 数 用 户 对 
它 不 太 熟 悉 。IPv6 地 址 的 传统 表示 方法 是 采用 称 为 块 或 字段 的 四 个 十 六 进 制 数 ， 这 些 被 称 为 
块 或 字段 的 数 由 冒号 分 隔 。 例 如 ， 一 个 包含 8 个 块 的 IPv6 地 址 可 写 为 5f05:2000:80ad:5800: 
0058:0800:2023:1d71。 虽 然 不 像 用 户 熟悉 的 十 进 制 数 ， 但 将 十 六 进 制 数 转换 为 二 进 制 更 容 
易 。 另 外 ， 一 些 已 取得 共识 的 IPv6 地 址 简化 表示 法 已 被 标准 化 [RFC4291]: 

1. 一 个 块 中 前 导 的 零 不 必 书 写 。 在 前 面 的 例子 中 ， 地 址 可 写 为 5f05:2000:80ad:5800: 
58:800:2023:1d71. 

2. 全 零 的 块 可 以 省 略 ， 并 用 符号 :: 代替 。 例 如 ，IPv6 地 址 0:0:0:0:0:0:0:1 可 简写 为 ::1。 
同样 ， 地 址 2001:0db8:0:0:0:0:0:2 可 简写 为 2001:db8::2。 为 了 避免 出 现 歧 义 ， 一 个 IPv6 地 址 
中 符号 :: 只 能 使 用 一 次 。 

3. 在 IPv6 Hh PRA IPv4 地 址 可 使 用 混合 符号 形式 ， 紧 接着 IPv4 部 分 的 地 址 块 的 值 
为 ffff， 地 址 的 其 余部 分 使 用 点 分 四 组 格式 。 例 如 ，IPv6 地 址 ::ffff:10.0.0.1 可 表示 IPv4 地 址 
10.0.0.1。 它 被 称 为 IPv4 映射 的 IPv6 地 址 。 

4. IPv6 地 址 的 低 32 位 通常 采用 点 分 四 组 表示 法 。 因 此 ，IPv6 地 址 ::0102:f001 相当 于 地 
Hk ::1.2.240.1。 它 被 称 为 IPv4 兼容 的 IPv6 地 址 。 需 要 注意 ，IPv4 兼容 地 址 与 IPv4 映射 地 址 不 
lal; 它们 只 是 在 能 用 类 似 IPv4 地 址 的 方式 书写 或 由 软件 处 理 方面 给 人 以 兼容 的 感觉 。 这 种 地 
址 最 初 用 于 IPv4 和 PPv6 之 间 的 过 渡 计 划 ， 但 现在 不 再 需要 [RFC4291]。 

表 2-2 介绍 了 一 些 IPv6 地 址 的 例子 以 及 它们 的 二 进 制 表示 。 


表 2-2 1IPv6 地 址 和 它 的 二 进 制 表示 的 几 个 例子 

十 六 进 制 表示 二 进 制 表示 

0101111100000101 0010000000000000 
1000000010101101 0101100000000000 
0000000001011000 0000100000000000 
0010000000100011 0001110101110001 
0000000000000000 0000000000000000 
0000000000000000 0000000000000000 
0000000000000000 0000000000000000 
0000000000000000 0000000000000001 
0000000000000000 0000000000000000 
0000000000000000 0000000000000000 
0000000000000000 0000000000000000 
0000000100000010 1111000000000001 


5f05:2000:80ad:5800:58:800:2023:1d71 


::1.2.240.1 或 ::102:f001 


在 某 些 情况 下 (例如 表示 一 个 包含 地 址 的 URL 时 )，IPv6 地 址 中 的 冒号 分 隔 符 可 能 与 其 
他 分 隔 符 混淆 ， 例 如 IP 地 址 和 端口 号 之 间 使 用 的 冒号 。 在 这 种 情况 下 ， 用 括号 字符 [和 ] 包 
Fal IPv6 地 址 。 例 如 ，URL 


http://[2001:0db8:85a3:08d3:1319:8a2e:0370:7344]:443/ 


是 指 IPv6 主机 2001:0db8:85a3:08d3:1319:8a2e:0370:7344 中 的 端口 号 443 使 用 HTTP、TCP 
和 IPv6 协议 。 

[RFC4291] 提供 的 灵活 性 造成 了 不 必要 的 混淆 ， 这 是 因为 能 用 多 种 方式 表示 相同 的 IPv6 
地 址 。 为 了 弥补 这 种 情况 , [RFC5952] 制定 了 一 些 规则 ， 以 缩小 选择 范围 ， 同 时 与 [RFC4291] 
保持 兼容 。 这 些 规则 如 下 : 

1. 前 导 的 零 必须 压缩 (例如 ，2001:0db8::0022 变 成 2001:db8::22 )。 
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2. :: 只 能 用 于 影响 最 大 的 地 方 (压缩 最 多 的 零 )， 但 并 不 只 是 针对 16 位 的 块 。 如 果 多 个 
块 中 包含 等 长 度 的 零 ， 顺 序 靠 前 的 块 将 被 替换 为 ::。 

3.a 到 了 的 十 六 进 制 数字 应 该 用 小 写 表示 。 

在 大 多 数 情况 下 ， 我 们 会 遵守 这 些 规则 。 


2.3 EFH IP 地 址 结构 


IPv4 地 址 空间 中 有 4 294 967 296 个 可 能 的 地 址 ， 而 IPv6 的 地 址 个 数 为 
340 282 366 920 938 463 463 374 607 431 768 211 456 
由 于 拥有 大 量 地 址 (特别 是 IPv6 )， 可 以 方便 地 将 地 址 空间 划分 成 块 。 卫 地 址 可 根据 类 型 和 
大 小 分 组 。 大 多 数 IPv4 地 址 块 最 终 被 细 分 为 一 个 地 址 ， 用 于 识别 连接 Internet 或 某 些 专用 的 
内 联网 的 计算 机 网 络 接口 。 这 些 地 址 称 为 单 播 地 址 。 IPv4 地 址 空间 中 大 部 分 是 单 播 地 址 空间 。 
IPv6 地 址 空间 中 大 部 分 目前 未 使 用 。 除 了 单 播 地 址 ， 其 他 类 型 的 地 址 包括 广播 、 组 播 和 任 播 
地 址 ， 它 们 可 能 涉及 多 个 接口 ， 还 有 一 些 特殊 用 途 的 地 址 ,我 们 将 在 后 面 讨论 它们 。 在 开始 
介绍 当前 地 址 结构 的 细节 之 前 ， 理 解 IP 地 址 的 历史 演变 是 有 用 的 。 


2.3.1 分 类 寻 址 


当 最 初 定义 Internet 地 址 结构 时 ， 每 个 单 播 IP 地 址 都 有 一 个 网 络 部 分 ， 用 于 识别 接口 使 
用 的 IP 地 址 在 哪个 网 络 中 可 被 发 现 ; 以 及 一 个 主机 地 址 ， 用 于 识别 由 网 络 部 分 给 出 的 网 络 
中 的 特定 主机 。 因 此 ， 地 址 中 的 一 些 连 续 位 称 为 网 络 号 ， 其 余 位 称 为 主机 号 。 当 时 ， 大 多 数 
主机 只 有 一 个 网 络 接 口 ， 因 此 术语 接口 地 址 和 主机 地 址 有 时 交替 使 用 。 

现实 中 的 不 同 网 络 可 能 有 不 同 数量 的 主机 ， 每 台 主 机 都 需要 一 个 唯一 的 IP 地 址 。 一 种 
划分 方法 是 基于 当前 或 预计 的 主机 数量 ,将 不 同 大 小 的 I 了 P 地址 空间 分 配给 不 同 的 站 点 。 地 
址 空间 的 划分 涉及 五 大 类 。 每 类 都 基于 网 络 中 可 容纳 的 主机 数量 ， 确 定 在 一 个 32 位 的 IPv4 
地 址 中 分 配给 网 络 号 和 主机 号 的 位 数 。 图 2-1 显示 了 这 个 基本 思路 。 


15 16 
| “网络 导 
1( 8 位 ; 7 位 自由 ) SAME 
! 网 络 号 (16 位 ; 14 位 自由 ) EM (ten) 
H 


组 播 地 址 ( 32 位 ; 28 位 自由 ) 












E 保留 (32 位; 28 位 自由 ) 


图 2-1 IPv4 地 址 空间 最 初 分 为 五 大 类 。A、B、C 类 用 于 为 Internet ( 单 播 地 址 ) 中 的 接口 分 配 地 址 ，. 


以 及 其 他 一 些 特殊 情况 下 使 用 。 类 由 地 址 中 的 头 几 位 来 定义 : 0 为 A 类 , 10 为 B 类 , 110 为 C 
类 等 。D 类 地 址 供 组 播 使 用 ( 见 第 9 章 )，E 类 地 址 保留 
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这 里 ， 我 们 看 到 5 个 类 被 命名 为 A、B、C、D 和 E。A、B、C 类 空间 用 于 单 播 地 址 。 
如 果 我 们 仔细 看 这 些 地 址 结构 ， 可 看 到 不 同类 的 相对 大 小 ， 以 及 在 实际 使 用 中 的 地 址 范围 。 


[5] 表 2-3 给 出 了 这 种 类 结构 (有 时 被 称 为 分 类 地 址 结构 )。 


表 2-3 最 初 (“分 类 ”) 的 IPv4 地 址 空间 划分 
no masas | o | Wwe | | 
sooo = roiassassass | 10 | auntie [1m | 16384 | 
zooo -223295255255 | 110 | Wm [ume | 2057157 | 
[neo -29255255255 | mo | aw | me | NA _| 


该 表 显 示 了 分 类 地 址 结构 的 主要 使 用 方式 ， 如 何 将 不 同 大 小 的 单 播 地 址 块 分 配给 用 
户 。 类 划分 基于 给 定 大 小 的 可 用 网 络 数 和 给 定 网 络 中 的 可 分 配 主机 数 之 间 的 折 中 。 例 如 ， 某 
个 站 点 分 配 了 一 个 A 类 网 络 号 18.0.0.0 (MIT)， 其 中 有 2* 个 地 址 分 配给 主机 ( 即 IPv4 地 
址 使 用 范围 18.0.0.0 ~ 18.255.255.255 )， 但 在 整个 Internet 中 只 有 127 个 A 类 网 络 。 某 个 
站 点 分 配 了 一 个 C 类 网 络 号 ， 例 如 192.125.3.0， 只 能 容纳 256 台 主 机 (也 就 是 说 在 范围 
192.125.3.0 ~ 192.125.3.255 内 )， 但 有 超过 200 万 的 C 类 网 络 号 是 可 用 的 。 


注意 这些 数字 是 不 准确 的 。 有 几 个 地 址 通常 不 作为 单 播 地 址 使 用 。 特 别 是 ， 地 址 
块 中 的 第 一 个 和 最 后 一 个 地 址 通常 不 使 用 。 在 我 们 的 例子 中 ， 站 点 分 配 的 地 址 块 为 
18.0.0.0， 实 际 能 分 配 多 达 24-2 = 16 777 214 个 单 播 IP 地 址 。 











16 777 216 






Internet 地 址 分 类 方法 在 经 历 Internet 增长 ( 20 世纪 80 年 代 ) 的 第 一 个 十 年 中 没有 变化 。 
此 后 ， 它 开始 出 现 规模 问题 ， 当 每 个 新 的 网 段 被 添加 到 Internet 中 ， 集 中 协调 为 其 分 配 一 个 
新 的 A 类 、B 类 或 C 类 网 络 号 变 得 很 不 方便 。 另 外 , A 类 和 B 类 网 络 号 通常 浪费 太 多 主机 号 ， 
而 C 类 网 络 号 不 能 为 很 多 站 点 提供 足够 的 主机 号 。 


2.3.2 FASHE 


Internet 发 展 初期 首先 遇 到 一 个 困难 ， 那 就 是 很 难为 接 人 Internet 的 新 网 段 分 配 一 个 新 的 
网 络 号 。 在 20 世纪 80 年 代 初 ， 随 着 局 域 网 (LAN) 的 发 展 和 增加 ， 这 个 问题 变 得 更 棘手 。 
为 了 解决 这 个 问题 ， 人 们 很 自然 想到 一 种 方式 ， 在 一 个 站 点 接 人 Internet 后 为 其 分 配 一 个 网 
络 号 ， 然 后 由 站 点 管理 员 进 一 步 划 分 本 地 的 子 网 数 。 在 不 改变 Internet 核心 路 由 基础 设施 的 
情况 下 解决 这 个 问题 将 会 更 好 。 

实现 这 个 想法 需要 改变 一 个 IP 地 址 的 网 络 部 分 和 主机 部 分 的 限制 ， 但 这 样 做 只 是 针对 
一 个 站 点 自身 而 言 ; Internet 其 余部 分 将 只 能 “看 到 ”传统 的 A 类 、B 类 和 C 类 部 分 。 支 持 
此 功能 的 方法 称 为 子 网 寻 址 [RFC0950]。 通 过 子 网 寻 址 ， 一 个 站 点 被 分 配 一 个 A 类 、B 类 或 
C 类 的 网 络 号 ,保留 一 些 剩余 主机 号 进一步 用 于 站 点 内 分 配 。 该 站 点 可 能 将 基础 地 址 中 的 主 
机 部 分 进一步 划分 为 一 个 子 网 号 和 一 个 主机 号 。 从 本 质 上 来 说 ， 子 网 寻 址 为 IP 地 址 结构 增 
加 了 一 个 额外 部 分 ,但 它 没有 为 地 址 增加 长 度 。 因 此 ， 一 个 站 点 管理 员 能 在 子 网 数 和 每 个 子 
网 中 预期 的 主机 数 之 间 折 中 ， 同 时 不 需要 与 其 他 站 点 协调 。 

子 网 寻 址 提供 额外 灵活 性 的 代价 是 增加 成 本 。 由 于 当前 的 子 网 字段 和 主机 字段 的 定义 是 
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由 站 点 指定 的 (不 是 由 网 络 号 分 类 决定 )， 一 个 站 点 中 所 有 路 由 器 和 主机 需要 一 种 新 的 方式 ， 
以 确定 地 址 中 的 子 网 部 分 和 其 中 的 主机 部 分 。 在 出 现 子 网 之 前 ， 这 个 信息 可 直接 从 一 个 网 络 
号 中 获得 ， 只 需 知道 是 A 类 、B 类 或 C 类 地 址 (由 地 址 的 前 几 位 表示 )。 图 2-2 给 出 了 使 用 
子 网 寻 址 的 例子 ， 显 示 了 一 个 IPv4 地 址 可 能 的 格式 。 








集中 分 配 站 点 本 地 管理 
类 0 15 16 31 
子 网 /主机 部 分 


图 2-2 一 个 B 类 地 址 被 划分 子 网 的 例子 。 它 使 用 8 位 作为 子 网 ID， 提 供 256 个 子 网 和 每 个 子 网 中 
254 台 主 机 。 这 种 划分 可 由 网 络 管理 员 改 变 


2-2 是 一 个 B 类 地 址 被 “划分 子 网 ”的 例子 。 假 设 Internet 中 的 一 个 站 点 已 被 分 配 一 
个 B 类 网 络 号 。 该 站 点 将 每 个 地 址 的 前 16 位 固定 为 某 些 特定 号 码 ， 这 是 由 于 这 些 位 已 被 分 
配给 核心 机 构 。 后 16 位 〈 仅 用 于 在 无 子 网 的 B 类 网 络 中 创建 主机 号 ) 现在 可 以 由 站 点 的 网 
络 管理 员 按 需 分 配 。 在 这 个 例子 中 ，8 位 被 选 定 为 子 网 号 ， 剩 下 8 位 为 主机 号 。 这 个 特殊 配 
置 允 许 站 点 支持 256 个 子 网 ， 每 个 子 网 最 多 可 包含 254 GES (当前 每 个 子 网 的 第 一 个 和 最 
后 一 个 地 址 无 效 ， 即 从 整个 分 配 范围 中 除去 第 一 个 和 最 后 一 个 地 址 )。 注 意 ， 只 有 划分 子 网 
的 网 络 中 的 主机 和 路 由 器 知道 子 网 结构 。 在 需要 进行 子 网 寻 址 之 前 ，Internet 其 他 部 分 仍 将 
它 作 为 站 点 相关 的 地 址 来 看 待 。 图 2-3 显示 了 如 何 工作 。 


Internet 











前 往 或 来 自 128.32.x.x 
的 所 有 流量 
128.32.2.9 


137.164.23.30 


128.32.1.x 128.32.2.x 


128.32.1.1 


站 点 范围 子 网 掩 码 & 


255.255.255.0 
128.32.1.14 128.32.2.122 


图 2-3 某 个 站 点 被 分 配 一 个 典型 的 B 类 网 络 号 128.32。 网 络 管理 员 决定 用 于 站 点 范围 内 的 子 网 掩 码 
为 255.255.255.0， 提 供 256 个 子 网 ， 每 个 子 网 可 容纳 256 - 2 = 254 台 主 机 。 同 一 子 网 中 每 台 
主机 的 IPv4 地 址 拥有 相同 子 网 号 。 左 侧 的 局 域 网 段 中 主机 的 IPv4 地 址 开始 于 128.32.1， 右 侧 
的 所 有 主机 开始 于 128.32.2 


本 图 显示 了 一 个 虚拟 的 站 点 ， 使 用 一 个 边界 路 由 器 (B Internet 的 一 个 连接 点 ) 连接 
Internet 和 两 个 内 部 局 域 网 。x 的 值 可 以 是 [0,255] 范围 内 的 任意 值 。 每 个 以 太 网 是 一 个 IPv4 
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子 网 ， 整 体 分 配 为 B 类 地 址 的 网 络 号 128.32. Internet 中 的 其 他 站 点 要 访问 这 个 站 点 ,目的 
地 址 以 128.32 开始 的 所 有 流量 直接 由 Internet 路 由 系统 交 给 边界 路 由 器 (特别 是 其 接口 的 
IPv4 地 址 137.164.23.30 )。 在 这 点 上 ， 边 界 路 由 器 必须 区 分 128.32 网 络 中 的 不 同 子 网 。 特 别 
是 ， 它 必须 能 区 分 和 分 离 目 的 地 址 为 128.32.1.x 和 目的 地 址 为 128.32.2.x. 的 流量 。 这 些 地 址 
分 别 表示 子 网 号 1 和 2， 它 们 都 采用 128.32 的 B 类 网 络 号 。 为 了 做 到 这 点 ， 路 由 器 必须 知道 
在 地 址 中 如 何 找到 子 网 ID 。 这 可 通过 一 个 配置 参数 实现 ， 我 们 将 在 后 面 加 以 讨论 。 


2.3.3 FR 


子 网 掩 码 是 由 一 台 主 机 或 路 由 器 使 用 的 分 配 位 ， 以 确定 如 何 从 一 台 主 机 对 应 IP 地 址 中 
获得 网 络 和 子 网 信息 。IP 子 网 掩 码 与 对 应 的 IP 地 址 长 度 相同 (Pv 为 32 位 ，IPv6 为 128 
位 )。 它 们 通常 在 一 台 主 机 或 路 由 器 中 以 IP 地 址 相同 的 方式 配置 ， 既 可 以 是 静态 的 (通常 
是 路 由 器 )， 也 可 以 使 用 一 些 动态 方式 ， 例 如 动态 主机 配置 协议 (DHCP ; 见 第 6 章 )。 对 于 
IPv4， 子 网 掩 码 以 IPv4 地 址 相同 的 方式 ( 即 点 分 十 进 制 ) 编写 。 虽 然 最 初 不 需要 以 这 种 方 
式 分 配 ， 当 前 子 网 掩 码 由 一 些 1 后 跟 一 些 0 构成。 这 样 安排 , 就 可 以 用 容易 记 的 格式 表示 掩 
码 ， 只 需 给 出 一 些 连续 位 的 1 ( 左 起 ) 的 掩 码 。 这 种 格式 是 当前 最 常见 的 格式 ， 有 时 也 被 称 
为 前 缓 长 度 。 表 2-4 列 出 了 IPv4 的 一 些 例子 。 | 


表 2-4 各 种 格式 的 IPv4 子 网 掩 码 的 例子 


点 分 十 进 制 表示 二 进 制 表示 

128.0.0.0 10000000 00000000 00000000 00000000 
255.0.0.0 11111111 00000000 00000000 00000000 
255.192.0.0 11111111 11000000 00000000 00000000 
255.255.0.0 11111111 11111111 00000000 00000000 
255.255.254.0 11111111 11111111 11111110 00000000 
255.255.255.192 11111111 11111111 11111111 11100000 
255.255.255.255 11111111 11111111 11111111 11111111 


表 2-5 列 出 了 IPv6 的 一 些 例子 。 


表 2-5 各 种 格式 的 IPv6 子 网 掩 码 的 例子 















1111111111111111 1111111111111111 
1111111111111111 1111111111111111 
0000000000000000 0000000000000000 
0000000000000000 0000000000000000 
1111111100000000 0000000000000000 
0000000000000000 0000000000000000 
0000000000000000 0000000000000000 
0000000000000000 0000000000000000 
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掩 码 由 路 由 器 和 主机 使 用 ， 以 确定 一 个 IP 地 址 的 网 络 / 子 网 部 分 的 结束 和 主机 部 分 的 开 
始 。 子 网 掩 码 中 的 一 位 设 为 1 表示 一 个 IP 地 址 的 对 应 位 与 一 个 地 址 的 网 络 / 子 网 部 分 的 对 应 
位 相 结合 ， 并 将 结果 作为 转发 数据 报 的 基础 〈 见 第 5 章 )。 相 反 ， 子 网 掩 码 中 的 一 位 设 为 0， 
表示 一 个 卫 地 址 的 对 应 位 作为 主机 ID 的 一 部 分 。 例 如 ， 我 们 在 图 2-4 中 可 以 看 到 ， 当 子 网 
掩 码 为 255.255.255.0 时 ， 如 何 处 理 IPv4 地 址 128.32.1.14。 


a 27 
























0 | 15 16 | 31 
地 址 | N0000000 00M00000 0000000Ml 00001110 | 128.32.1.14 
| | | 
wm =| 1111114 11111111 1111111f] 00000000 | 255.255.255.0(/24) 
a a ae 
结果 | M0000000 00//00000 00000004) 00000000 | 128:32.1.0 
I [i L 


图 2-4 一 个 IP 地 址 可 以 与 一 个 子 网 掩 码 使 用 按 位 与 操作 ， 以 形成 用 于 路 由 的 地 址 的 网 络 / 子 网 标识 符 
(前 级)。 在 这 个 例子 中 ，IPv4 地 址 128.32.1.14 使 用 长 度 为 24 的 掩 码 得 到 前 级 128.32.1.0/24 


这 里 ,我 们 看 如 何 将 地 址 中 的 每 位 与 子 网 掩 码 中 的 对 应 位 进行 与 运算 。 回 顾 按 位 与 运 
算 ， 如 果 掩 码 和 地 址 中 的 对 应 位 都 是 1， 则 结果 位 都 只 能 是 1。 在 这 个 例子 中 ,我们 看 到 地 
址 128.32.1.14 属于 子 网 128.32.1.0/24。 图 2-3 中 是 边界 路 由 器 需要 的 信息 ， 以 确定 一 个 目的 
地 址 为 128.32.1.14 的 数据 报 需 要 转发 到 的 系统 所 在 的 子 网 。 注 意 ，Internet 路 由 系统 其 余部 
分 不 需要 子 网 掩 码 的 知识 ， 因 为 站 点 之 外 的 路 由 器 做 出 路 由 决策 只 基于 地 址 的 网 络 号 部 分 ， 
并 不 需要 网 络 / 子 网 或 主机 部 分 。 因 此 ， 子 网 掩 码 纯粹 是 站 点 内 部 的 局 部 问题 。 


2.3.4 ”可 变 长 度 子 网 掩 码 


目前 为 止 ， 我们 已 讨论 如 何 将 一 个 分 配给 站 点 的 网 络 号 进一步 细 分 为 多 个 可 分 配 的 大 小 
相同 的 子 网 ， 并 根据 网 络 管理 员 的 合理 要 求 使 每 个 子 网 能 支持 相同 数量 的 主机 。 我 们 发 现在 
同一 站 点 的 不 同 部 分 ， 可 将 不 同 长 度 的 子 网 掩 码 应 用 于 相同 网 络 号 。 虽 然 这 样 增加 了 地 址 配 
置 管理 的 复杂 性 ， 但 也 提高 了 子 网 结构 的 灵活 性 ， 这 是 由 于 不 同 子 网 可 容纳 不 同 数量 的 主机 。 
目前 ， 大 多 数 主机 、 路 由 器 和 路 由 协议 支持 可 变 长 度 子 网 掩 码 (VLSM)。 要 了 解 VLSM 如 何 
工作 ,可 以 看 图 2-5 所 示 的 网 络 拓扑 ， 它 使 用 VLSM 为 图 2-3 扩展 了 两 个 额外 的 子 网 。 
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图 2-5 VLSM 可 用 于 分 割 一 个 网 络 号 ， 使 每 个 子 网 支持 不 同 数量 的 主机 。 每 个 路 由 器 和 主机 除了 P 地 址 ， 
还 需要 配置 一 个 子 网 掩 码 。 大 多 数 软 件 支 持 VLSM， 除 了 一 些 旧 的 路 由 协议 (例如 RIP 版 本 1 ) 
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在 图 2-5 显示 的 更 复杂 的 例子 中 ， 三 个 不 同 的 子 网 掩 码 被 用 于 站 点 中 的 子 网 128.32.0.0/16: 
/24、/25 和 /26。 这 样 ， 每 个 子 网 可 提供 不 同 数量 的 主机 。 主 机 数 受 他 地址 中 没有 被 网 络 / 子 
网 号 使 用 的 剩余 位 限制 。 对 于 IPv4 和 /24 前 级 ， 人 允许 有 32 - 24=8 位 (256 台 主 机 ); 对 于 /25， 
有 1/2 数量 (128 台 主 机 ); 对 于 /26， 有 1/4 数量 (64 台 主 机 )。 注 意 ， 主 机 和 路 由 器 的 每 个 接 
口 都 需要 用 IP 地 址 和 子 网 掩 码 来 描述 ， 但 掩 码 决定 了 网 络 拓扑 的 不 同 。 基 于 路 由 器 中 运行 的 
动态 路 由 协议 (例如 OSPF、IS-IS、RIPv2 )， 流 量 能 正确 地 在 同一 站 点 中 的 主机 之 间 流 动 ， 
以 及 通过 Internet 前 往 或 来 自 外 部 站 点 。 

尽管 这 可 能 并 不 显而易见 ， 但 有 一 个 常见 情况 ， 即 一 个 子 网 中 只 包含 两 台 主 机 。 当 路 由 
器 之 间 被 一 条 点 到 点 链 路 连接 ， 则 每 个 端点 都 需要 分 配 一 个 IP 地址 ， 常 见 做 法 是 IPv4 使 用 
/31 为 前 级 ， 目 前 也 有 建议 IPv6 使 用 /127 HATA [RFC6164]。 


2.3.5 ”广播 地 址 


在 每 个 IPv4 子 网 中 ， 一 个 特殊 地 址 被 保留 作为 子 网 广播 地 址 。 子 网 广播 地 址 通过 将 
IPv4 地 址 的 网 络 / 子 网 部 分 设置 为 适当 值 ， 以 及 主机 部 分 的 所 有 位 设置 为 1 而 形成 。 我 们 看 
图 2-5 中 最 左边 的 子 网 ， 它 的 前 级 是 128.32.1.0/24。 子 网 广播 地 址 的 构建 方式 为 ， 对 子 网 掩 
BPU (即将 所 有 的 0 位 改变 为 1， 反 之 亦 然 )， 并 与 子 网 中 任意 计算 机 的 地 址 (或 等 值 的 网 
络 / 子 网 前 级 ) 进行 按 位 或 运算 。 注 意 ， 如 果 两 个 输入 位 之 一 为 1， 按 位 或 运算 的 结果 为 1。 
图 2-6 显示 了 这 个 计算 过 程 ， 其 中 使 用 IPv4 地 址 128.32.1.14。 





0 15 16 | 


31 
地 址 10000000 00100000 00000001|00001110|| 128.32.1.14 











0.0.0.255 


掩 码 取 反 | 00000000 00000000 0000000011111111 











128.32.1.255 








或 的 结果 | 10000000 00100000 0000000111111111 


图 2-6 子 网 广播 地 址 由 子 网 掩 码 首先 取 反 ， 然 后 与 IPv4 地 址 进行 或 运算 构建 而 成 。 在 这 种 情况 下 ， 
一 个 /24 的 子 网 掩 码 ， 剩 余 的 32 - 24 = 8 位 设置 为 1， 得 到 一 个 十 进 制 值 255 和 子 网 广播 地 址 
128.32.1.255 


如 图 2-6 所 示 ， 子 网 128.32.1.0/24 的 子 网 广播 地 址 是 128.32.1.255。 从 历史 上 看 ， 使 用 
这 种 地 址 作为 目的 地 的 数据 报 ， 也 被 称 为 定向 广播 。 至 少 在 理论 上 ， 这 种 广播 可 作为 一 个 单 
独 的 数据 报 通过 Internet 路 由 直至 到 达 目 标 子 网 ， 再 作为 一 组 广播 数据 报 发 送 给 子 网 中 所 有 
主机 。 对 这 个 想法 做 进一步 概括 ， 我 们 可 形成 一 个 目的 IPv4 地 址 为 128.32.255.255 的 数据 
报 ， 并 且 通 过 图 2-3 或 图 2-5 所 示 的 连接 网 络 将 它 发 送 到 Internet。 这 时 ， 该 数据 报 将 发 送 给 
目标 站 点 中 的 所 有 主机 。 


注意 定向 广播 是 一 个 大 问题 ， 从 安全 的 角度 来 看 ， 它 们 至 今 在 Internet 中 仍 被 禁 
用 。[RFC0919] 描述 了 针对 IPv4 的 各 类 广播 ， [RFC1812] 建议 支持 由 路 由 器 转发 
定向 广播 ， 它 不 仅 可 用 ， 而且 默认 启用 。[RFC2644] 使 这 个 策略 发 生 逆 转 ， 路 由 器 
现在 默认 禁止 转发 定向 广播 ， 其 至 完全 省 略 支持 能 力 。 


除了 子 网 广播 地 址 ， 特 殊 用 途 地 址 255.255.255.255 被 保留 为 本 地 网 络 广 播 (也 称 为 有 限 
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广播 )， 它 根本 不 会 被 路 由 器 转发 ( 详 见 2.5 节 中 的 特殊 用 途 地 址 )。 注 意 ， 虽 然 路 由 器 可 能 
不 转发 广播 ， 但 子 网 广播 和 连接 在 同一 网 络 中 的 计算 机 的 本 地 网 络 广播 将 工作 ， 除 非 被 终端 
主机 明确 禁用 。 这 种 广播 不 需要 路 由 器 ; 如 果 有 的 话 ， 链 路 层 的 广播 机 制 用 于 支持 它们 ( 见 
第 3 章 )。 广 播 地 址 通常 与 某 些 协议 一 起 使 用 ， 例 如 UDP/IP (第 10 章 ) 或 ICMP (第 8 章 )， 
因为 这 些 协 议 不 涉及 TCP/IP 那样 的 双方 会 话 。IPv6 没有 任何 广播 地 址 ; 广播 地 址 可 用 于 
IPv4 中 ， 而 IPv6 仅 使 用 组 播 地 址 ( 见 第 9 章 )。 


2.3.6 IPv6 地 址 和 接口 标识 条 


除了 比 IPv4 地 址 长 4 倍 这 个 因素 ，IPv6 地 址 还 有 一 些 额 外 的 特点 。IPv6 地 址 使 用 特殊 
前 级 表示 一 个 地 址 范围 。 一 个 IPv6 地 址 范围 是 指 它 可 用 的 网 络 规模 。 有 关 范 围 的 重要 例子 
包括 节点 本 地 (只 用 于 同一 计算 机 中 通信 )、 链 路 本 地 (只 用 于 同一 网 络 链 路 或 IPv6 前 级 中 
的 节点 ) RAR (Internet 范围 ) 。 在 IPv6 中 ， 大 部 分 节点 通常 在 同一 网 络 接口 上 使 用 多 个 
地 址 。 虽 然 IPv4 中 也 支持 这 样 做 ,但 是 并 不 常见 。 一 个 IPv6 节点 中 需要 一 组 地 址 ， 包 括 组 
播 地 址 ( 见 2.5.2 节 )， 它 来 源 于 [RFC4291]。 


注意 另 一 个 范围 层次 称 为 站 点 本 地 ,使 用 的 前 组 为 fec0::/ 10， 最 初 是 由 IPv6 & 
持 的 ， 后 来 被 [RFC3879] 放弃 并 用 于 单 播 地 址 。 主 要 问题 包括 如 何 处 理 这 种 地 址 ， 
这 是 由 于 它 可 能 被 重用 于 多 个 站 点 ， 以 及 如 何 准确 定义 一 个 “站 点 ”。 


链 路 本 地 IPv6 地 址 (和 一 些 全 球 性 IPv6 地 址 ) 使 用 接口 标识 符 (IID) 作为 一 个 单 播 
IPv6 地 址 的 分 配 基础 。 除 了 地 址 是 以 二 进 制 值 000 开始 之 外 ，IID 在 所 有 情况 下 都 作为 一 个 
IPv6 地 址 的 低 序 位 ， 这 样 它们 必须 在 同一 网 络 中 有 了 唯一 前 级 。IID 的 长 度 通常 是 64 位 ， 并 直 
接 由 一 个 网 络 接口 相关 的 链 路 层 MAC 地 址 形成 ， 该 地 址 使 用 修改 的 EUI-64 格式 [EUI64]， 
或 者 由 其 他 进程 随机 提供 的 值 形 成 ， 以 提供 可 防范 地 址 跟踪 的 某 种 程度 的 隐私 保护 ( 见 
第 6 章 )。 

在 IEEE 标准 中 ，EUI 表 示 扩 展 唯 一 标识 符 。EUI-64 标识 符 开始 于 一 个 24 位 的 组 织 唯 
一 标识 符 ( OUI)， 接 着 是 一 个 由 组 织 分 配 的 40 位 扩展 标识 符 ， 它 由 前 面 24 位 识别 。OUI 由 
IEEE 注册 权威 机 构 [IEEERA] 来 维护 和 分 配 。EUI 可 能 是 “统一 管理 ”或 “本 地 管理 ”的 。 
在 Internet 环境 下 ， 这 种 地 址 通常 是 统一 管理 的 。 

ZER, RE IEEE 标准 兼容 的 网 络 接口 〈 例 如 以 太 网 ) 在 使 用 短 格式 的 地 址 (48 位 的 
EUI)。EUI-48 和 EUI-64 格式 之 间 的 显著 区 别 是 它们 的 长 度 LE 2-7 )。 


0 5 


EUI-48 


u; 通用 /本 地 


EUI-64 





OUI (24 位 ) 由 组 织 分 配 


图 2-7 EUI-48 和 EUI-64 格式 由 IEEE 定义 。 这 些 都 是 用 于 IPv6 的 地 址 ， 
它们 是 通过 将 接口 标识 符 取 反 u 位 来 形成 的 


30 2# 


OUI 的 长 度 是 24 位， 并 占据 EUI-48 和 EUI-64 地 址 的 前 3 个 字 节 。 这 些 地 址 的 第 一 个 
字 节 的 低 两 位 分 别 是 u 位 和 g 位 。 当 u 位 被 设置 时 ， 表 示 该 地 址 是 本 地 管理 。 当 g 位 被 设置 
时 , ,表示 该 地 址 是 一 组 或 组 播 类 型 的 地 址 。 目 前 ， 我 们 只 关心 g 位 未 被 设置 的 情况 。 

一 个 EUI-64 地 址 可 以 由 EUI-48 地 址 形成 ， 将 EUI-48 地 址 的 24 位 OUI 值 复制 到 EUI- 
64 地 址 ， 并 将 EUI-64 地 址 的 第 4 和 第 5 个 字 节 的 16 位 替换 为 1111111111111110 (十 六 进 
制 FFFE)， 然 后 复制 由 组 织 分 配 的 剩余 位 。 例 如 ，EUI-48 H Ht 00-11-22-33-44-55 在 EUI- 
64 地 址 中 将 会 变 成 00-11-22-FF-FE-33-44-55。 这 个 映射 的 第 一 步 是 当 可 以 用 基本 EUI-48 地 
址 时 由 IPv6 构造 接口 标识 符 。 修 改 的 EUI-64 用 于 形成 IPv6 地 址 的 ID， 但 是 需要 对 位 
取 反 。 

当 一 个 IPv6 接口 标识 符 需 要 一 种 接口 ， 并 且 该 接口 没有 由 制造 商 提供 EUI-48 地 址 ， 但 
是 有 其 他 类 型 的 基本 地 址 时 (例如 AppleTalk)， 基 本 地 址 可 用 0 从 左 侧 填充 形成 接口 标识 符 。 
当 接 口 标识 符 是 为 缺乏 任意 形式 标识 符 的 接口 (例如 隧道 、 串 行 链 路 ) 创建 时 ， 它 可 由 相同 
节点 上 (不 在 同一 子 网 中 ) 的 其 他 接口 ， 或 者 与 节点 有 关联 的 某 些 标识 符 派 生 。 在 缺乏 其 他 
选择 的 情况 下 ， 手 动 分 配 是 最 后 的 方案 。 


2.3.6.1 ”例子 
我 们 探讨 使 用 Linux 的 ifconfig 命令 形成 一 个 链 路 本 地 IPv6 地 址 的 方式 : 


Linux% ifconfig eth1 

ethl Link encap:Ethernet HWaddr 00:30:48:2A:19:89 
inet addr:12.46.129.28 Bcast:12.46.129.127 
Mask: 255.255.255.128 
inet6 addr: fe80::230:48ff:fe2a:1989/64 Scope:Link 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 
RX packets:1359970341 errors:0 dropped:0 overruns:0 frame:0 
TX packets:1472870787 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:1000 
RX bytes:4021555658 (3.7 GiB) TX bytes:3258456176 (3.0 GiB) 
Base address:0x3040 Memory: £8220000-£8240000 


这 里 ， 我 们 可 看 到 以 太 网 硬件 地 址 00:30:48:2A:19:89 如 何 被 映射 为 一 个 IPv6 地 址 。 
首先 ， 它 被 转换 为 EUI-64 形成 地 址 00:30:48:ff:fe:2a:19:89。 接 着 , u 位 被 取 反 ， 形 成 IID 
值 02:30:48: 全 :fe:2a:19:89。 为 了 完成 链 路 本 地 IPv6 地 址 ， 我 们 使 用 保留 的 链 路 本 地 前 绥 
fe80::/10 (IL 2.5 节 )。 总 之 ， 这 样 形成 完整 地 址 fe80::230:48ff:fe2a:1989。/64 是 标准 长 度 ， 用 
于 从 一 个 IPv6 地 址 中 识别 子 网 / 主机 部 分 ， 它 由 [RFC4291] 要 求 的 一 个 ID 派生 。 

另 一 个 有 趣 的 例子 来 自 支持 IPv6 的 Windows 系统 。 在 这 个 例子 中 ， 我们 将 看 到 一 个 特 
殊 的 隧道 端点 ， 它 被 用 于 使 IPv6 流量 通过 仅 支 持 IPv4 的 网 络 : 


c:\> ipconfig /all 
Tunnel adapter Automatic Tunneling Pseudo-Interface: 
Connection-specific DNS Suffix . : foo 


Descriptions: mi Woy see GYR KP : Automatic Tunneling 
Pseudo-Interface 


Physical Address. > s c evea : 0A-99-8D-87 
Dhep Enabled. . e © «6 1 « « » « & No 
IP Address 这 二 GOS OS Bot is, & : fe80::5efe:10.153.141.135%2 


Default Gateway < . è ajragan 
DNS- Servers s > > ss oaan : fec0:0:0:ffff::1%2 
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fec0:0:0:ffff::2%2 
fec0:0:0:ffff::3%2 
NetBIOS over Tepip. - > > ð = è : Disabled 


在 这 个 例子 中 ， 我们 可 以 看 到 一 个 特殊 的 隧道 接口 为 I SATAP[RFC5214]。 实 际 上 ， 所 
谓 的 物理 地 址 是 IPv4 地 址 的 十 六 进 制 编码 : 0A-99-8D-87 与 10.153.141.135 相同 。 这 里 ,使 
用 的 OUI (00-00-5E) 是 由 IANA 分 配 的 [IANA]。 它 被 用 于 与 十 六 进 制 值 色 组 合 ， 表 示 一 
MRA HY IPv4 地 址 。 然 后 ， 这 个 组 合 与 标准 的 链 路 本 地 前 级 fe80::/10 组 合 ， 最 终 形成 地 址 
fe80::5efe:10.153.141.135。 附 加 在 地 址 结尾 的 %2 在 Windows 中 称 为 区 域 ID， 表 示 主 机 中 
对 应 于 IPv6 地 址 的 接口 索引 号 。IPv6 地 址 通常 由 一 个 自动 配置 过 程 创建 ,我们 在 第 6 章 详 
细 讨 论 这 个 过 程 。 


24 ” CIDR 和 聚合 


20 世纪 90 年 代 初 ,在 采用 子 网 寻 址 缓解 增长 带 来 的 痛苦 后 ，Internet 开始 面临 更 严重 的 
规模 问题 。 有 三 个 问题 很 重要 ， 需 要 立即 引起 注意 : 

1. 到 1994 Æ, 一 半 以 上 的 B 类 地 址 已 被 分 配 。 预 计 ，B 类 地 址 空间 大 约 在 1995 年 将 被 
用 尽 。 

2. 32 位 的 IPv4 地 址 被 认为 不 足以 应 付 Internet 在 21 世纪 初 的 预期 规模 。 

3. 全 球 性 路 由 表 的 条 目 数 (每 个 网 络 号 对 应 一 条 )，1995 年 大 约 为 65 000 个 条 目 ， 目 前 
仍 在 增长 中 。 随 着 越 来 越 多 A 类 、B 类 和 C 类 路 由 条 目的 出 现 ， 路 由 性 能 将 受到 影响 。 

从 1992 年 开始 ， 这 些 问 题 受到 ETF 中 的 ROAD (路 由 和 寻 址 ) 小 组 的 关注 。 他 们 认为 
问题 1 和 3 将 很 快 来 临 ， 问 题 2 需要 一 个 长 期 的 解决 方案 。 他 们 提出 的 短期 解决 方案 是 有 效 
清除 IP 地 址 的 分 类 缺陷 ， 并 提高 层次 化 分 配 的 IP 地 址 的 聚合 能 力 。 这 些 措施 将 有 助 于 解决 
问题 1 和 3。IPv6 被 设想 用 于 解决 问题 2。 


2.4.1 前 级 


为 了 帮助 缓解 IPv4 地 址 (特别 是 B 类 地 址 ) 的 压力 ， 分 类 寻 址 方案 通常 使 用 一 个 类 似 
VLSM 的 方案 ， 扩 展 Internet 路 由 系统 以 支持 无 类 别 域 间 路 由 (CIDR) [RFC4632]。 这 提供 
了 一 种 方便 的 分 配 连续 地 址 范围 的 方式 ， 包 含 多 于 255 台 但 少 于 65 536 台 主 机 。 也 就 是 说 ， 
不 只 是 单个 B 类 或 多 个 C 类 网 络 号 可 分 配给 站 点 。 使 用 CIDR， 未 经 过 预定 义 的 任何 地 址 
范围 可 作为 一 个 类 的 一 部 分 , 但 需要 一 个 类 似 于 子 网 掩 码 的 掩 码 ， 有 时 也 称 为 CIDR 掩 码 。 
CIDR 掩 码 不 再 局 限于 一 个 站 点 ， 而 对 全 球 性 路 由 系统 都 是 可 见 的 。 因 此 ， 除 了 网 络 号 之 外 ， 
核心 Internet 路 由 器 必须 能 解释 和 处 理 掩 码 。 这 个 数字 组 合 称 为 网 络 前 缓 ， 它 用 于 IPv4 和 
IPv6 地 址 管理 。 

消除 一 个 耳 地 址 中 网 络 和 主机 号 的 预定 义 分 隔 ， 将 使 更 细 粒 度 的 IP 地 址 分 配 范围 成 为 
可 能 。 与 分 类 寻 址 类 似 ， 地 址 空间 分 割 成 块 最 容易 通过 数值 连续 的 地 址 来 实现 ， 以 便 用 于 某 
种 类 型 或 某 些 特殊 用 途 。 目 前 ， 这 些 分 组 普遍 使 用 地 址 空间 的 前 缀 表示 。 一 个 n 位 的 前 缀 是 
一 个 地 址 的 前 n 个 位 的 预定 义 值 。 对 于 IPv4，n (前 缀 长 度 ) 的 值 通常 在 范围 0 ~ 32 ; 对 于 
IPv6， 通 常 在 范围 0 ~ 128。 它 通常 被 追加 到 基本 IP 地 址 ， 并 且 后 面 跟着 一 个 /字符 。 表 2-6 
给 出 了 一 些 前 级 的 例子 ， 以 及 相应 的 IPv4 或 Pv6 地 址 范围 。 
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2-6 前缀 的 例子 及 其 相应 的 1Pv4 或 IPv6 地 址 范围 


前 组 前 缀 (二 进 制 ) 地 址 范围 
0.0.0.0/0 00000000 00000000 00000000 00000000 0.0.0.0 ~ 255.255.255.255 


128.0.0.0/1 128.0.0.0 ~ 255.255.255.255 

128.0.0.0/24 128.0.0.0 ~ 128.0.0.255 

198.128.128.192/27 198.128.128.192 ~ 198.128.128.223 

165.195.130.107/32 10100101 11000011 10000010 01101011 165.195.130.107 
0010000000000001 0000110110111000 


0000000000000000 0000000000000000 


2001:db8::/32 2001:db8:: ~ 2001:db8:ffff: fff 


0000000000000000 0000000000000000 
0000000000000000 0000000000000000 





在 这 个 表 中 ， 由 前 缀 来 定义 并 固定 的 位 被 圈 在 一 个 框 中 。 剩 余 位 可 设置 为 0 和 1 的 任意 
组 合 ， 从 而 涵盖 可 能 的 地 址 范围 。 显 然 ， 一 个 较 小 的 前 缀 长 度 可 对 应 于 一 个 更 大 的 地 址 范围 。 
另外 ， 早 期 的 分 类 寻 址 方案 易于 被 这 个 方案 覆盖 。 例 如 ，C 类 网 络 号 192.125.3.0 可 以 写成 前 
2% 192.125.3.0/24 或 192.125.3/24。 分 类 的 A 类 和 B 类 网 络 号 可 分 别 用 前 缀 长 度 /8 和 /16 表示 。 


2.4.2 RE 


通过 取消 分 类 结构 的 卫 地 址 ， 能 分 配 各 种 尺寸 的 IP 地 址 块 。 但 是 ， 这 样 做 没有 解决 问 
题 列 表 中 的 第 三 个 问题 ， 它 并 没有 帮助 减少 路 由 表 条 目 数 。 一 条 路 由 表 条 目 告诉 一 个 路 由 器 
向 哪里 发 送 流量 。 从 本 质 上 来 说 ， 路 由 器 检查 每 个 到 达 的 数据 报 中 的 目的 IP 地 址 ， 找 到 一 
条 匹配 的 路 由 表 条 目 ， 并 从 该 条 目 中 提取 数据 报 的 “下 一 跳 ” 。 这 有 点 像 驾驶 汽车 去 一 个 特 
定 地 址 ， 并 在 沿路 每 个 路 口 找到 一 个 标志 ， 指 示 沿 着 哪个 方向 去 目的 地 路 线 的 下 一 个 路 口 。 
如 果 你 能 理解 在 每 个 路 口 设置 很 多 标志 ， 以 指向 每 个 可 能 的 目的 地 的 情形 ， 就 能 认识 到 20 
世纪 90 4E {RH Internet 面临 的 一 些 问题 。 

当时 ， 没 什么 技术 可 以 解决 以 下 问题 : 在 维护 Internet 中 到 所 有 目的 地 的 最 短路 径 的 
同时 ， 又 能 够 显著 减少 路 由 表 条 目 数 。 最 有 名 的 方法 是 20 世纪 70 年 代 末 由 Kleinrock 和 
Kamoun 发 表 的 分 层 路 由 研究 [KK77]。 他 们 发 现 ， 如 果 将 网 络 拓扑 排列 为 一 棵 树 ”, 并 且 以 对 
这 个 网 络 拓扑 “人 敏感 的 ”方式 来 分 配 地 址 ， 这 样 可 获得 一 个 非常 小 的 路 由 表 ， 同 时 保持 到 所 
有 目的 地 的 最 短路 径 。 大 家 可 以 看 图 2-8。 

在 图 2-8 中 ， 圆 表示 路 由 器 ， 线 表示 它们 之 间 的 网 络 链 路 。 图 的 左 侧 和 右 侧 显示 树 状 网 
络 。 它 们 之 间 的 区 别 是 路 由 器 的 地 址 分 配方 式 。 在 图 2-8a 中 ， 地 址 基本 上 是 随机 的 ， 树 中 
的 路 由 器 地 址 和 位 置 之 间 没有 直接 关系 。 在 图 2-8b 中 ， 地 址 根据 路 由 器 在 树 中 的 位 置 分 配 。 
如 果 考 虑 每 个 顶层 路 由 器 需要 的 条 目 数 ， 就 可 以 看 到 这 是 一 个 重大 区 别 。 

图 2-8 中 左 侧 树 的 根 (顶级 ) 是 标记 为 19.12.4.8 的 路 由 器 。 为 了 知道 每 个 可 能 的 目的 地 
的 下 一 跳 ， 它 需要 一 个 树 中 在 其 “下 面 的 ”所 有 路 由 器 的 条 目 : 190.16.11.2、86.12.0.112、 
159.66.2.231、133.17.97.12、66.103.2.19、18.1.1.1、19.12.4.9 和 203.44.23.198。 对 于 任何 
其 他 目的 地 ， 它 只 需 简 单 地 路 由 到 标 有 “网 络 其 他 部 分 ”的 云 中 。 结 果 共 有 9 个 条 目 。 相 比 
之 下 ， 右 侧 树 的 根 被 标记 为 19.0.0.1， 并 要 求 其 路 由 表 中 只 有 3 个 条 目 。 注 意 ， 右 树 中 左 侧 


O 在 图 论 中 ,一 棵 树 是 一 个 没有 循环 的 连接 图 。 对 于 一 个 网 络 中 的 路 由 器 和 链 路 ， 这 意味 着 在 任意 两 台 路 由 


器 之 间 有 且 只 有 一 条 简单 的 (不 重复 的 ) 路 径 。 
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的 所 有 路 由 器 以 前 组 19.1 开始 ， 右 侧 的 所 有 路 由 器 以 前 组 19.2 开始 。 因 此 ， 路 由 器 19.0.0.1 
的 表 中 只 需 将 以 19.1 开始 的 目的 地 显示 下 一 跳 为 19.1.0.1， 而 将 以 19.2 开始 的 目的 地 显示 下 
一 跳 为 19.2.0.1。 任 何其 他 目的 地 都 被 路 由 到 标 有 “网 络 其 他 部 分 ”的 云 中 。 结 果 共 有 3 个 
条 目 。 注 意 ， 这 种 行为 是 递归 的 ， 图 2-8b 所 示 树 中 的 任意 路 由 器 ， 需 要 的 条 目 数 都 不 会 超过 
它 拥有 的 链 路 数 。 这 是 这 种 特殊 的 地 址 分 配方 法 所 带 来 的 直接 结果 。 即 使 越 来 越 多 的 路 由 器 
加 入 图 2-8b 所 示 的 树 ， 这 个 良好 的 属性 也 保持 不 变 。 这 是 [KK77] 的 分 层 路 由 思想 的 精髓 。 







3 个 条 目 
( PRE Ae eee 网 络 其 他 部 分 C$ ( 不 随 着 树 生 长 变化 的 表 ) 


190.16.11.2 © 





Q 133.17.97.12 19.1.01 © 2 19.2.0.1 


66.103.2.19 19.2.3.1 
C} 86.12.0.112 






159.66.2.231 。 19.12.4.9 203.44.23.198 19.1.1.65 19.2.1.65 19.2.3.254 
a) 随机 ( 位 置 无 关 ) Fh b) 拓扑 敏感 〈 位 置 相关 ) 寻 址 


图 2-8 在 树 状 拓扑 的 网 络 中 ， 网 络 地 址 可 采用 特殊 方式 分 配 ， 以 限制 需 保 存在 路 由 器 中 的 路 由 信息 
(“状态 ”) 数量 。 如 果 不 以 这 种 ( 左 侧 的 ) 方式 分 配 地 址 ， 没 有 存储 与 需 到 达 的 节点 数量 成 正 
比 的 状态 ， 则 最 短路 径 无 法 得 到 保证 。 当 以 保存 状态 的 树 状 拓扑 敏感 的 方式 分 配 地 址 时 ， 如 果 
网 络 拓扑 发 生变 化 ， 通 常 需要 重新 分 配 地 址 


在 Internet 环境 中 ， 可 采用 分 层 路 由 思想 以 一 种 特定 方式 减少 nternet 路 由 条 目 数 。 这 
通过 一 个 称 为 路 由 聚合 的 过 程 来 实现 。 通 过 将 相 邻 的 多 个 P 前 组 合并 成 一 个 短 前 缀 〈 称 为 一 
个 聚合 或 汇聚 )， 可 以 覆盖 更 多 地 址 空间 。 我 们 可 以 看 图 2-9。 


190.154.27.0/26 90.154.27.0/25 
190.154.27.64/26 上 190.154.27.0 190.154.27.0/25 =) 190.154.27.0/24 


190.154.27.192/26  190-154.27.192/26 —» 190.154.27.128/25  190.154.26.0/24 


190.154.27.128/26 
190.154.26.0/23 


图 2-9 ”在 这 个 例子 中 ， 篆 头 表 示 将 两 个 地 址 前 缀 聚合 为 一 个 ， 带 下 划 线 的 前 缀 是 每 一 步 的 结果 。 第 一 步 ， 
190.154.27.0/26 和 190.154.27.64.0/26 可 以 聚合 ， 这 是 由 于 它们 数值 相 邻 ， 但 是 190.154.27.192/26 
不 能 聚合 。 通 过 与 190.154.27.128/26 相 加 ， 它 们 可 经 过 两 步 聚 合 形成 190.154.27.0/24。 最 后 ， 通 
过 与 相 邻 的 190.154.26.0/24 相 加 ， 生 成 聚合 结果 190.154.26.0/23 


首先 看 图 2-9 中 左 侧 的 三 个 地 址 前 级 。 前 两 个 ( 190.154.27.0/26 和 190.154.27.64/26 ) 
数值 相 邻 ， 因 此 可 被 组 合 (聚合 )。 箭 头 表示 聚合 发 生 的 地 方 。 前 缀 190.154.27.192/26 不 能 
在 第 一 步 被 聚合 ， 由 于 它们 并 非 数值 相 邻 。 当 增加 一 个 新 前 缀 190.154.27.128/26〈 下 划 线 )， 
前 缀 190.154.27.192/26 和 190.154.27.128/26 可 能 被 聚合 ， 并 形成 190.154.27.128/25 Ñ Bo 
这 个 聚合 现在 与 聚合 190.154.27.0/25 相 邻 ， 因 此 它们 可 进一步 聚合 成 190.154.27.0/24。 当 增 
加 前 缀 190.154.26.0/24 (下划线 )， 两 个 CC 类 的 前 缀 可 以 聚合 成 190.154.26.0/23。 这 样 ， 原 来 
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的 三 个 前 缀 和 两 个 增加 的 前 缀 可 聚合 成 一 个 前 级 。 


2.5 ”特殊 用 途 地 址 


IPv4 和 IPv6 地 址 空间 中 都 包括 几 个 地 址 范围 ， 它 们 被 用 于 特殊 用 途 (因此 不 能 用 于 单 
播 地 址 分 配 )。 对 于 IPv4， 这 些 地 址 显示 在 表 2-7 中 [RFC5735]。 


表 2-7 ”IPv4 特殊 用 途 地 址 (定义 于 2010 年 1 月 ) 





we 参考 文献 
10.00.08 [RFC1918] 
127.0.0.0/8 Internet 主机 回 送 地 址 (同一 计算 机 )。 通 常 只 用 127.0.0.1 [RFC1122] 
169.254.0.0/16 “ 链 路 本 地 ”地 址 ， 只 用 于 一 条 链 路 ， 通 常 自动 分 配 。 见 第 6 章 [RFC3927] 
1721600112 [RFCI18 
192.168.0.0/16 专用 网 络 (内 联网 ) 的 地 址 。 这 种 地 址 不 会 出 现在 公共 Internet 中 [RFC1918] 
203,013.04 [RFCS737] 
[RFC0919] 


在 IPv6 中 ,许多 地 址 范围 和 个 别 地 址 用 于 特定 用 途 ， 它 们 都 列 在 表 2-8 中 [RFC5156]。 
表 2-8 1Pv6 特殊 用 途 地 址 (定义 于 2008 年 4 月 ) 


ie 参考 文献 
200152 [ECG 
2001:10::/28 ORCHI (覆盖 可 路 由 加 密 散 列 标识 符 )。 这 种 地 址 不 会 出 现在 公共 Internet 中 | [RFC4843] 
00:7 IC 
0/0 (RFC) 
£1008 [RFC4291] 
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对 于 IPv4 和 IPv6， 没 有 指定 作为 特殊 、 组 播 或 保留 地 址 的 地 址 范围 可 供 单 播 使 用 。 一 
些 单 播 地 址 空间 (IPv4 的 前 级 10/8、172.16/12 和 192.168/16， 以 及 IPv6 的 前 级 fc00::/7 ) 被 
保留 用 于 构建 专用 网 络 。 来 自 这 些 范围 的 地 址 可 用 于 一 个 站 点 或 组 织 内 部 的 主机 和 路 由 器 
之 间 的 通信 ， 但 不 能 跨越 全 球 性 的 Internet。 因 此 ， 这 些 地 址 有 时 也 被 称 为 不 可 路 由 的 地 址 。 
也 就 是 说 ， 它 们 不 能 在 公共 'Internet 中 路 由 。 

专用 、 不 可 路 由 的 地 址 空间 管理 完全 由 本 地 决定 。IPv4 专用 地 址 在 家 庭 网 络 、 中 等 规模 
和 大 型 企业 内 部 网 络 中 很 常见 。 它 们 经 常 与 网 络 地 址 转换 (NAT) 结合 使 用 ,在 IP 数据 报 进 
人 Internet 时 修改 其 中 的 卫 地 址 。 我 们 在 第 7 章 详 细 讨 论 NAT。 


2.5.1 IPv4/IPv6 地 址 转换 


在 有 些 网 络 中 ， 可 能 需要 在 IPv4 和 IPv6 之 间 转 换 [RFC6127]。 目 前 ， 已 制定 了 一 个 用 
于 单 播 转换 的 框架 [RFC6144]， 以 及 一 个 正在 开发 的 用 于 组 播 转换 的 方案 [IDv 4v6mc]。 一 
个 基本 功能 是 提供 自动 、 基 于 算法 的 地 址 转换 。 例 如 ， 使 用 “知名 的 ”IPv6 前 缀 64:ff9b::/96 
或 其 他 指定 前 级 ，[RFC6052] 定义 了 如 何在 单 播 地 址 中 实现 它 。 

该 方案 使 用 一 种 特殊 地 址 格式 ， 称 为 嵌入 IPv4 的 IPv6 地 址 。 这 种 地 址 在 IPv6 地 址 内 
部 包含 IPv4 地 址 。 它 可 采用 6 种 格式 之 一 来 编码 ，IPv6 前 缀 长 度 必须 是 下 列 数 值 之 一 : 32、 
40、48、56、64 或 96。 图 2-10 显示 了 可 用 的 格式 。 


、 前 缀 长 度 
0 31 39 47 63 71 79 87 95 103 127 
| ae | ee ls. ee 
( 32 位) (32 位 ) ( 56 位 ) 
40 IPv6 前 级 IPv4 地 址 IPv4 地 址 后 级 
( 40 位 ) (前 24 位 ) (后 8 位 ) (48 位 ) 
IPv6 前 级 IPv4 地 址 IPv4 地 址 后 级 
48 (48 位 ) (前 16 位 ) © | (后 16 位 ) (40 位 ) 
56 IPv6 前 绥 ipv4 地 址 IPv4 地 址 后 级 
(56 位 ) amiol Y (后 24 位 ) (32 位 ) 
IPv6 前 级 IPv4 地 址 a 
64 (64 位 ) $ (32 位 ) (24 位 ) 
IPv6 前 级 IPv4 地 址 
96 
图 2-10 IPv4 bht ERA IPv6 地 址 中 ， 形 成 一 个 嵌入 IPv4 的 IPv6 地 址 。 有 6 种 不 同 的 格式 可 用 ， 


这 取决 于 使 用 的 IPv6 前 缀 长 度 。 众 所 周知 的 前 级 64:ff9b::/96 可 用 于 IPv4 和 IPv6 单 播 地 址 之 
间 的 自动 转换 














在 该 图 中 ， 前 级 既 可 以 是 一 个 众所周知 的 前 级 ， 也 可 以 是 组 织 为 转换 器 分 配 的 唯一 前 
缀 。 第 64 至 71 位 必须 设置 为 0， 以 保持 与 [RFC4291] 指定 标识 符 的 兼容 性 。 后 缀 的 位 被 保 
留 ， 并 且 应 设置 为 0。 然 后 ， 采 用 简单 方法 来 生成 内 和 人 IPv4 的 IPv6 地 址 : 将 IPv6 前 缀 与 
32 位 的 IPv4 地 址 相 串 联 ， 并 确保 第 64 至 71 位 被 设置 为 0 (如 果 有 必要 ,插入 )。 在 后 级 的 
后 面 增加 0， 直 到 生成 一 个 128 位 地 址 。 财 入 IPv4 的 IPv6 地 址 使 用 96 位 前 级 选项 ， 该 选项 


52 


53 
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通常 用 前 面 提 到 的 IPv6 映射 地 址 来 表示 ([RFC4291] 中 的 2.2(3) 节 )。 BAN, te A IPv4 地 址 
198.51.100.16 和 众所周知 的 前 级 ， 生 成 地 址 64:ff9b::198.51.100.16。 


2.5.2 ”组 播 地 址 


IPv4 和 IPv6 支持 组 播 寻 址 。 一 个 IP 组 播 地 址 (也 称 为 组 或 组 地 址 ) 标识 一 组 主机 接口 ， 
而 不 是 单个 接口 。 一 般 来 说 ,一 个 组 可 以 跨越 整个 Internet。 一 个 组 所 覆盖 的 网 络 部 分 称 为 
组 的 范围 [RFC2365]。 常 见 的 范围 包括 节点 本 地 (同一 计算 机 )、 链 路 本 地 (同一 子 网 )、 站 点 
本 地 (适用 于 一 些 站 点 )、 全 球 (整个 Internet) 和 管理 。 管 理 范 围 的 地 址 可 用 于 一 个 网 络 区 
域内 已 手动 配置 到 路 由 器 的 地 址 。 站 点 管理 员 可 将 路 由 器 配置 为 管理 范围 边界 ， 这 意味 着 相 
关 组 的 组 播 流量 不 会 被 路 由 器 转发 。 注 意 ， 站 点 本 地 和 管理 范围 只 在 使 用 组 播 寻 址 时 有 效 。 

在 软件 的 控制 下 ， 每 个 Internet 主机 中 的 协议 栈 能 加 入 或 离开 一 个 组 播 组 。 当 一 台 主 机 
向 一 个 组 发 送 数据 时 ， 它 会 创建 一 个 数据 报 ， 使 用 ( 单 播 ) IP 地 址 作为 源 地 址 ， 使 用 组 播 了 
地 址 作为 目的 地 址 。 已 加 入 组 的 所 有 主机 将 接收 发 送 到 该 组 的 任何 数据 报 。 发 送 方 通常 不 知 
道 主 机 是 否 接 收 到 数据 报 ， 除 非 它们 明确 做 出 应 答 。 事 实 上 ， 发 送 方 甚至 不 知道 通常 有 多 少 
台 主 机 接收 它 的 数据 报 。 

至 此 ， 原 有 的 组 播 服务 模型 已 成 为 大 家 所 知 的 任意 源 组 播 (ASM)。 在 这 种 模型 下 ， 任 
何 发 送 方 可 以 发 送 给 任何 组 ; 一 个 加 入 组 的 接收 方 被 指定 唯一 的 组 地 址 。 一 种 新 方案 称 为 源 
特定 组 播 (SSM) [RFC3569][RFC4607]， 在 每 个 组 中 只 使 用 一 个 发 送 方 ( 见 [RFC4607] 的 勘 
误 表 )。 在 这 种 情况 下 ， 当 一 台 主 机 加 入 一 个 组 后 ， 它 会 被 指定 一 个 信道 地 址 ， 其 中 包括 一 
个 组 地 址 和 一 个 源 全 地 址 。SSM 避免 了 ASM 模型 部 署 时 的 复杂 性 。 尽 管 有 多 种 组 播 形 式 在 
整个 Internet 中 广泛 使 用 , 但 SSM 是 当前 更 受 欢 迎 的 候选 者 。 

在 Internet 社区 中 ， 对 广 域 组 播 的 理解 和 实现 已 经 过 十 年 以 上 的 不 懈 努 力 ， 并 且 已 经 开 
发 出 大 量 的 广 域 组 播 协议 。 全 球 性 Internet 组 播 如 何 工作 的 细节 超出 本 文 的 范围 ， 有 兴趣 的 
读者 可 以 查看 [IMR02]。 第 9 章 详细 介绍 本 地 P 组 播 如 何 工 作 。 现 在 ,我 们 要 讨论 IPv4 和 
IPv6 组 播 地 址 的 格式 和 意义 。 


2.5.3 IPv4 组 播 地 址 


对 于 IPv4，D 类 空间 (224.0.0.0 ~ 239.255.255.255) 已 被 保留 支持 组 播 。28 位 空闲 意 
味 着 可 提供 2*= 268 435 456 个 主机 组 (每 个 组 是 一 个 IP 地 址 )。 这 个 地 址 空间 被 分 为 几 个 
主要 部 分 ， 它 建立 在 对 路 由 分 配 和 处 理 的 基础 上 [IP4MA]。 表 2-9 列 出 了 这 些 主要 部 分 。 


表 2-9 用 于 支持 组 播 的 IPv4 的 D 类 地 址 空间 的 主要 部 分 


范围 (包含 ) 参考 文献 

224.0.0.0 ~ 224.0.0.255 [RFC5771] 
224.0.1.0 ~ 224.0.1.255 [RFC5771] 
224.0.2.0 ~ 224.0.255.255 [RFC5771] 
224.1.0.0 ~ 224.1.255.255 [RFCS771] 
224.2.0.0 ~ 224.2.255.255 [RFC4566] 
224.3.0.0 ~ 224.4.255.255 [RFCS771] 
224.5.0.0 ~ 224.255.255.255 [IP4MA] 


225.0.0.0 ~ 231.255.255.255 保留 [IP4MA] 
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( 续 ) 
范围 (包含 ) 特殊 用 途 参考 文献 

232.0.0.0 ~ 232.255.255.255 源 特定 组 播 (SSM) [RFC4607] [RFC4608] 
233.252.0.0 ~ 233.255.255.255 Ad hoc 块 3 (233.252.0.0/24 为 文档 保留 ) [RFC5771] 

234.0.0.0 ~ 234.255.255.255 a [RFC6034] 

IPv4 
235.0.0.0 ~ 238.255.255.255 SERRE EVA EA [IP4MA] 
239.0.0.0 ~ 239.255.255.255 管理 范围 [RFC2365] 


到 224.255.255.255 的 地 址 块 被 分 配给 某 些 应 用 协议 或 组 织 使 用 。 这 些 分 配 工作 由 IANA 
或 IETF 完成 。 本 地 网 络 控 制 块 限制 为 发 送 方 的 本 地 网 络 ; 发 送 到 这 些 地 址 的 数据 报 不 会 被 
组 播 路 由 器 转发 。“ 所 有 主机 ”组 (224.0.0.1) 是 这 个 块 中 的 一 个 组 。 互 联网 络 控制 块 类 似 
于 本 地 网 络 控制 范围 ， 其 目的 是 控制 需要 被 路 由 到 本 地 链 路 的 流量 。 该 地 址 块 的 一 个 例子 是 
网 络 时 间 协 议 (NTP) 组 播 组 (224.0.1.1 ) [RFC5905]。 

第 一 个 Ad hoc (特定 ) 块 用 于 保留 一 些 地 址 ， 避 免 它 们 落 入 本 地 或 互联 网 络 控制 块 。 在 
此 范围 内 的 大 多 数 分 配 是 用 于 商业 服务 ， 其 中 一 些 不 (或 永远 不 ) 需要 全 球 地 址 分 配 ; 它们 
可 能 最 终 被 返还 以 支持 GLOP“ 寻 址 ( 见 下 一 段落 )。 在 SDP/ SAP 块 中 包含 某 些 应 用 所 使 用 
的 地 址 ， 例 如 会 话 目录 工具 (SDR) [H96]， 它 使 用 会 话 通告 协议 (SAP) 发 送 组 播 会 议 通告 
[RFC2974]。 新 的 会 话 描述 协议 (SDP) [RFC4566] 最 初 只 是 SAP 的 一 个 组 成 部 分 ， 当 前 它 
不 仅 用 于 P 组 播 ， 而 且 与 其 他 机 制 一 起 描述 多 媒体 会 话 。 

其 他 主要 地 址 块 的 出 现 稍 晚 于 IP 组 播 的 演变 。 如 前 面 所 述 ， 某 些 应 用 使 用 SSM 块 实 
ISSM, 结合 自己 的 单 播 源 地 址 形成 一 个 SSM 信道 。 在 GLOP 块 中 ,组 播 地 址 基于 主机 
的 自治 系统 (AS) 号 ， 该 主机 处 于 应 用 分 配 地 址 的 一 端 。AS 号 用 于 ISP 之 间 的 Internet 范 
围 的 路 由 协议 ， 以 聚合 路 由 器 和 实现 路 由 策略 。AS 号 最 初 是 16 位 ， 但 现在 已 扩展 到 32 位 
[RFC4893]。GLOP 地 址 的 生成 是 将 一 个 16 位 AS 号 放 在 IPv4 组 播 地 址 的 第 2 和 第 3 字 节 ， 
并 且 保留 1 字 节 的 空间 表示 可 能 的 组 播 地址 ( 即 多 达 256 个 地 址 )。 因 此 ， 它 可 在 一 个 16 位 
AS 号 和 与 这 个 AS SHAKIRA GLOP 组 播 地 址 之 间 来 回 映 射 。 这 个 计算 过 程 很 简单 ， 目 前 
已 开发 出 几 个 在 线 计算 器 。” 

最 近 ,，IPv4 组 播 地 址 分 配 机 制 将 多 个 组 播 地 址 与 一 个 IPv4 单 播 地 址 前 缀 关联 。 这 
被 称 为 基于 单 播 前 组 的 组 播 寻 址 (UBM), È Æ [RFC6034] 中 描述 。 它 基于 IPv6 Ke 
期 的 一 个 类 似 结 构 ， 我 们 在 前 面 2.5.4 节 讨论 过 。UBM 的 IPv4 地址 范围 是 234.0.0.0 至 
234.255.255.255。 单 播 地 址 需 分 配 一 个 /24 或 更 短 的 前 缀 以 使 用 UBM 地 址 。 分 配 更 短 的 地 
HE ( 即 /25 或 更 长 的 前 级 ) 必须 使 用 一 些 其 他 机 制 。UBM 地 址 被 构造 成 前 级 234/8、 分 配 的 
单 播 前 级 和 组 播 组 ID 的 串联 。 图 2-11 显示 了 这 个 格式 。 

为 了 确定 与 一 个 单 播 分 配 相 关 的 UBM 地 址 ， 分 配 前 缀 只 是 简单 地 在 前 面 添加 前 绥 
234/8。 例 如 ， 单 播 IPv4 地 址 前 缀 192.0.2.0/24 有 一 个 关联 的 UBM 地 址 234.192.0.2。 通 过 对 
组 播 地 址 简单 地 “ 左 平移 ”8 位 ， 有 可 能 确定 一 个 组 播 地 址 的 所 有 者 。 例 如 ， 我 们 知道 组 播 
地 址 范围 234.128.32.0/24 被 分 配给 加 州 大 学 伯克利 分 校 ， 这 是 由 于 相应 的 单 播 IPv4 地 址 空 


© GLOP 不 是 一 个 缩写 ， 它 只 是 一 部 分 地 址 空间 的 名 称 。 
© 例如 ，http://gigapop.uoregon.edu/glop/。 
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间 128.32.0.0/16 ( 234.128.32.0 的 “ 左 移 ” 版 本 ) 是 由 加 州 大 学 伯克利 分 校 所 拥有 (可 以 使 用 
WHOIS 查询 来 确定 ， 见 2.6.1.1 节 )。 


0 78 N 31 


< 234 单 播 前 绥 组 ID 
(8 位 ) (最 多 24 位 ) (最 多 16 位 ) 


图 2-11 IPv4 的 UBM 地 址 格式 。 为 单 播 地 址 分 配 /24 或 更 短 的 前 级 ， 关 联 的 组 播 地 址 分 配 基 于 前 级 
234/8、 分 配 的 单 播 前 级 和 组 播 组 ID 的 串联 。 因 此 ， 较 短 的 单 播 前 级 分 配 包含 更 多 单 播 和 组 
播 地 址 


UBM 地 址 比 其 他 类 型 的 组 播 地 址 分 配 有 更 多 优点 。 例 如 ， 用 于 GLOP 寻 址 时 ， 它 们 可 
以 不 受 16 位 AS 号 限制 。 另 外 ， 它 们 可 作为 已 存在 的 单 播 地 址 空间 的 分 配 结果 。 因 此 ， 使 
用 组 播 地 址 的 站 点 知道 哪些 地 址 可 用 ， 并 且 不 需要 进一步 协调 。 最 后 ，UBM 地 址 可 以 比 
GLOP 地 址 更 好 地 分 配 ， 对 应 的 AS 号 可 分 配 到 更 细 粒 度 。 在 今天 的 Internet 中 ， 一 个 AS 号 
AW SASAKI, (AS VEE WE UBM 支持 在 地 址 和 所 有 者 之 间 的 简单 映射 。 

管理 范围 的 地 址 块 可 用 于 限制 分 布 在 路 由 器 和 主机 的 特定 集合 中 的 组 播 流 量 。 它 可 以 看 
作 组 播 对 专用 单 播 IP 地 址 的 模拟 。 这 种 地 址 不 能 用 于 将 组 播 分 发 到 Internet， 这 是 因为 其 中 
大 多 数 流 量 被 阻塞 在 企业 边界 。 大 型 站 点 有 时 会 划分 管理 范围 的 组 播 地 址 ， 以 用 于 某 些 特定 
范围 〈 例 如， 工作 组 、 部 门 和 地 理 区 域 )。 


2.5.4 IPv6 组 播 地 址 


对 于 IPv6， 对 组 播 的 使 用 相当 积极 ， 前 缀 fft00::/8 已 被 预 留 给 组 播 地 址 ， 并 且 112 位 可 
用 于 保存 组 号 ， 可 提供 的 组 数 为 222= 5 192 296 858 534 827 628 530 496 329 220 096, H— 
般 格 式 如 图 2-12 所 示 。 
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图 2-12 基本 的 IPv6 组 播 地 址 格式 包括 4 个 标志 位 (0, 保留) R， 包 含 会 合 点 ; P， 使 用 单 播 前 级 ; T, 
是 临时 的 )。4 位 范围 值 表 示 组 播 的 范围 (全 球 、 本 地 等 )。 组 ID 编码 在 低 序 的 112 位 中 。 如 
果 了 或 R 位 被 设置 ， 则 使 用 一 种 代替 格式 


IPv6 组 播 地 址 的 第 2 字 节 包 含 一 个 4 位 标志 字段 和 一 个 4 位 范围 ID 字段。 范围 字段 表 
示 到 某 些 组 播 地 址 的 数据 报 的 分 配 限 制 。 十 六 进 制 值 0、3 和 f 人 保留。 十 六 进 制 值 6、7 和 
9 ~ d 未 分 配 。 表 2-10 给 出 了 这 些 值 (根据 [RFC4291] 中 的 2.7 节 )。 


表 2-10 IPv6 范围 字段 的 值 
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很 多 IPv6 组 播 地 址 由 IANA 分 配 为 永久 使 用 ， 并 且 故 意 跨越 多 个 地 址 范围 。 这 些 组 播 
地 址 对 每 个 范围 都 有 一 定 偏 移 量 (由 于 这 个 原因 ， 这 些 地 址 被 称 为 相对 范围 或 可 变 范 围 )。 例 
如 ， 可 变 范围 的 组 播 地 址 ff0x::101 是 由 [IP6MA] 为 NTP 服务 器 预 留 。x 表示 可 变 范围 ， 表 
2-11 显示 了 一 些 预 留 定义 的 地 址 。 


表 2-11 针对 NTP (101) 的 永久 可 变 范围 的 IPv6 组 播 地 址 保留 的 例子 


地 址 含 X 
ff01::101 同一 机 器 中 的 所 有 NTP 服务 器 
ff02::101 同一 链 路 / 子 网 中 的 所 有 NTP 服务 器 
ff04::101 某 些 管理 定义 范围 内 的 所 有 NTP 服务 器 
ff05::101 同一 站 点 中 的 所 有 NTP 服务 器 
ff08::101 同一 组 织 中 的 所 有 NTP 服务 器 
ff0e::101 Internet 中 的 所 有 NTP 服务 器 


在 IPv6 中 ， 当 P 和 RR 位 字段 设置 为 0 时 ,使 用 图 2-12 中 给 出 的 组 播 地 址 格式 。 当 
P 设 置 为 1， 无须 基 于 每 个 组 的 全 球 性 许可 ， 对 组 播 地 址 有 两 个 可 选 方法 。 它 们 被 描述 在 
[RFC3306] 和 [RFC4489] 中 。 第 一 种 方法 称 为 基于 单 播 前 组 的 IPv6 组 播 地 址 分 配 ， 由 ISP 或 
地 址 分 配 机 构 提 供 单 播 前 缀 分 配 ， 并 且 有 效 分 配 一 个 组 播 地 址 集合 ， 从 而 限制 了 因 避 免 重复 
而 需 全 球 协调 的 数量 。 第 二 种 方法 称 为 链 路 范围 的 IPv6 组 播 ， 使 用 接口 标识 符 ， 并 且 组 播 
地 址 是 基于 主机 的 ID。 为 了 了 解 这 些 不 同 格式 如 何 工 作 ， 首 先 要 了 解 IPv6 组 播 地 址 中 位 字 
段 的 使 用 细节 。 它 们 被 定义 在 表 2-12 中 。 


R 2-12 IPv6 组 播 地 址 标志 


会 合 点 标志 (0， 常 规 的 ; 1， 包 括 RP 地 址 ) [RFC3956] 


前 级 标志 ( 0， 常 规 的 ，1 ， 基 于 单 播 前 缀 的 地 址 ) [RFC3306] 
临时 标志 (0， 永 久 分 配 的 ; 1， 临 时 的 ) [RFC4291] 





当 工 位 字段 被 设置 时 ， 表 示 组 地 址 是 临时 或 动态 分 配 的 ; 它 不 是 [IP6MA] 中 定义 的 标 
准 地 址 。 当 P 位 字段 被 设置 为 1, 工 位 也 必须 被 设置 为 1。 当 这 种 情况 发 生 时 ， 使 用 基于 单 
播 地 址 前 缀 的 特殊 格式 的 IPv6 组 播 地 址 ， 如 图 2-13 所 示 。 
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图 2-13 IPv6 组 播 地 址 可 以 基于 单 播 IPv6 地 址 来 创建 [RFC3306]。 在 这 样 做 时 , P 位 字段 设置 为 1， 
单 播 前 级 和 32 位 的 组 ID 被 加 入 地 址 。 这 种 形式 的 组 播 地 址 分 配 简 少 了 全 球 地 址 分 配 协议 的 
需求 


这 里 ,我 们 可 以 看 到 如 何 使 用 基于 单 播 前 级 的 地 址 改变 组 播 地 址 格式 ， 包 括 一 个 单 播 前 
缀 及 其 长 度 ， 以 及 一 个 更 小 的 (32 位 ) 组 ID。 该 方案 的 目的 是 提供 全 球 唯一 的 IPv6 组 播 地 
址 分 配方 式 ， 同 时 不 需要 提出 新 的 全 球 性 机 制 。 由 于 IPv6 单 播 地 址 已 分 配 全 球 性 的 前 级 单 


[58] 


Moo -~ vv， os 


元 ( 见 2.6 节 )， 所 以 在 组 播 地 址 中 可 以 使 用 这 个 前 组 中 的 位 ， 从 而 在 组 播 应 用 中 利用 现 有 的 
单 播 地 址 分 配方 法 。 例 如 ， 一 个 组 织 分 配 了 一 个 单 播 前 级 3ffe:ffff:1::/48 ， 那 么 它 随 之 分 配 了 
一 个 基于 单 播 的 组 播 前 级 ff3x:30:3ffe:ffff:1::/:96， 其 中 x 是 任何 有 效 范围 。SSM 通过 设置 前 
缀 长 度 和 将 前 级 字 段 设置 为 0 来 支持 这 种 格式 ， 以 便 有 效 地 将 前 级 ff3x::/32 (其 中 x 是 任何 
有 效 的 范围 值 ) 用 于 所 有 这 类 IPv6 SSM 组 播 地 址 。 

为 了 创建 唯一 的 链 路 本 地 范围 的 组 播 地 址 ， 可 使 用 一 种 基于 IID 的 方法 [RFC4489]， 当 
只 需要 链 路 本 地 范围 时 ， 这 种 方法 是 基于 单 播 前 缀 分 配 的 首选 。 在 这 种 情况 下 ， 可 使 用 男 一 
种 形式 的 IPv6 组 播 地 址 结构 ( 见 图 2-14 )。 
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图 2-14 IPv6 链 路 范围 的 组 播 地 址 格式 。 只 适用 于 链 路 (或 更 小 ) 范围 内 的 地 址 ， 组 播 地 址 可 以 结合 
IPv6 接口 ID 和 组 ID 来 形成 。 这 种 映射 是 直接 的 ， 所 有 地 址 使 用 前 级 形式 ff3:0011/32， 其 中 
x 是 范围 ID 并 且 小 于 3 


图 2-14 所 示 的 地 址 格式 与 图 2-13 的 格式 相似 ， 除 了 前 组 长 度 字段 被 设置 为 255， 并 将 
随后 字段 中 的 前 组 蔡 换 为 I Pv6 的 IID。 这 个 结构 的 优点 是 不 需要 提供 前 级 以 形成 组 播 地 址 。 
在 不 需要 路 由 器 的 Ad hoc (无 线 自 组 织 ) 网 络 中 ， 一 台 单 独 的 计算 机 可 基于 自己 的 ID 形成 
唯一 的 组 播 地 址 ， 而 无 须 运行 一 个 复杂 的 许可 协议 。 如 前 所 述 ， 这 种 格式 只 适用 于 本 地 链 路 
或 节点 组 播 范围 。 但 是 ， 当 需要 更 大 的 范围 时 ， 无 论 是 基于 单 播 前 缀 的 地 址 还 是 永久 组 播 地 
址 都 可 使 用 。 作 为 这 种 格式 的 一 个 例子 ， 一 个 ID 为 02-11-22-33-44-55-66-77 的 主机 将 使 用 
组 播 地 址 ff3x:0011:0211:2233:4455:6677:gggg:gggg， 其 中 x 是 一 个 等 于 或 小 于 2 的 范围 值 ， 
gggg:gggg 是 一 个 32 位 组 播 组 ID 的 十 六 进 制 表 示 。 

我 们 还 要 讨论 的 位 字段 是 R 位 字段 。 当 使 用 基于 单 播 前 缀 的 地 址 (P 位 被 设置 ) 时 ， 它 
表示 组 播 路 由 协议 需要 知道 一 个 会 合 点 。 


注意 SSA (RP) 是 一 个 路 由 器 中 用 于 处 理 一 个 或 多 个 组 播 组 的 组 播 路 由 的 IP 
地 址 。 RP 用 于 PIM-SM 协议 [RFC4601]， 以 帮助 参加 同一 组 播 组 中 的 发 送 方 和 接 
收 方 找 到 对 方 。Internet 范围 的 组 播 部 署 遇 到 的 问题 之 一 是 会 合 点 定位 。 这 种 方法 
重 载 IPv6 组 播 地 址 以 包含 一 个 RP 地 址 。 因 此 ， 从 一 个 组 地 址 找到 一 个 RP 是 简单 
的 ， 只 需 从 中 选择 合适 的 位 的 子 集 。 


当 标志 了 被 设置 时 ， 图 2-15 显示 了 组 播 地址 修改 后 的 格式 。 

图 2-15 所 示 的 格式 与 图 2-13 类 似 ， 但 不 使 用 SSM (这 样 前 缀 长 度 不 能 为 零 )。 另 外 ， 
新 引入 了 一 个 称 为 RIID 的 4 位 字段 。 为 了 形成 图 2-15 所 示 格 式 的 基于 RP 地 址 的 IPv6 地 
址 ， 前 组 长 度 字 段 表示 的 位 数 从 前 缓 字段 提取 ， 并 放置 在 一 个 新 的 IPv6 地 址 的 高 位 。 然 后 ， 
RID 字段 值 被 用 作 RP 地 址 的 低 4 位。 剩余 的 部 分 用 零 填 充 。 作 为 一 个 例子 ， 我 们 看 一 个 组 
播 地 址 ff75:940:2001:db8:dead:beef:fo0d:face。 在 这 个 例子 中 ,范围 为 5 (站 点 本 地 )，RIID 
字段 值 为 9， 前 缀 长 度 为 0x40 = 64 位 。 因 此 ， 前 缀 本 身 为 2001:db8:dead:beef，RP 地 址 为 
2001:db8:dead:beef::9。 更 多 的 例子 见 [RFC3956]。 
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标志 ”范围 保留 RID MAKE 前 级 组 ID 
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图 2-15 RP 的 单 播 IPv6 Hath Ay HR A IPv6 组 播 地 址 [RFC3956]。 这 样 ， 它 可 以 直接 找到 用 于 路 由 的 
RP 关联 的 地 址 。RP 被 用 于 组 播 路 由 系统 ， 以 协调 不 在 同一 子 网 中 的 组 播发 送 方 和 接收 方 


与 IPv4 相似 ，IPv6 也 有 一 些 保 留 的 组 播 地 址 。 除 了 前 面 提 到 的 可 变 范围 地 址 ， 这 些 地 
址 还 根据 范围 划分 成 组 。 表 2-13 给 出 了 一 个 IPv6 组 播 空 间 中 的 保留 列表 。[IP6MA] 提供 了 
更 多 的 信息 。 


表 2-13 IPv6 组 播 地 址 空间 中 的 保留 地 址 


CE ET 
而 IEC429 
而 [REC429 
AI: IDGha 
02:1 [RECAI] 
0:2 (RFC 
moza [RFC1075] 
moas [RFC2328) 
mn (RFC2328 
02:9 [RRC2080 
m2 [EGR 
maid [RFCS0S9 
ma (RFC3810 
26a RFC4286] 
iad [RFC5498] 
2: UDCha 
E IREC3315 
E iRFC#795 
Aff (RFC 
5:2 (RFC 
AS: De 
E [RFC3319] 
ix [RFC4291] 
A: [DGha 
104 (RFCS505 
133 (RFCS352 
ET IREC54 
me | NG | ssv 关 E 

2.5.5 (Ettik 


任 播 地 址 是 一 个 单 播 IPv4 或 IPv6 地 址 ， 这 些 地 址 根据 它 所 在 的 网 络 确定 不 同 的 主机 。 
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这 是 通过 配置 路 由 器 通知 Internet 中 多 个 站 点 有 相同 单 播 路 由 来 实现 。 因 此 ， 一 个 任 播 地 址 
不 是 指 Internet 中 的 一 台 主 机 ， 而 是 对 于 任 播 地 址 “最 合适 ”或 “最 接近 ”的 一 台 主 机 。 任 
播 地 址 最 常用 于 发 现 一 台 提 供 了 常用 服务 的 计算 机 [RFC4786]。 例 如 ， 某 个 数据 报 发 送 到 一 
个 任 播 地 址 ， 可 用 于 找到 DNS 服务 器 ( 见 第 11 章 )，6to4 网 关 将 IPv6 流量 封装 在 IPv4 隧道 
中 [RFC3068]， 或 用 于 组 播 路 由 的 RP 中 [RFC4610]。 


2.6 分 配 

IP 地 址 空间 通常 被 分 配 为 大 的 块 ， 这 由 一 些 分 层次 组 织 的 权威 机 构 完 成 。 权 威 机 构 是 为 
各 种 “所 有 者 ”分 配 地 址 空间 的 组 织 ,“ 所 有 者 ”通常 是 ISP 或 其 他 较 小 的 权威 机 构 。 权 威 
机 构 经 常 参与 全 球 单 播 地 址 空间 分 配 ,， 但 有 时 也 分 配 其 他 类 型 的 地 址 (组 播 和 特殊 用 途 )。 权 
威 机 构 为 用 户 分配 一 个 不 限时 的 地 址 块 ， 或 是 一 个 限时 (例如 实验 ) 的 地 址 块 。 这 个 层次 结 
构 的 顶部 是 IANA[IANA]， 它 负责 分 配 IP 地 址 和 Internet 协议 使 用 的 其 他 号 码 。 


2.6.1 单 播 


对 于 单 播 IPv4 和 IPv6 的 地 址 空间 ，IANA 将 分 配 权限 主要 委托 给 几 个 地 区 性 Internet 
注册 机 构 ( RIR)。RIR 之 间 通 过 一 个 组 织 互 相 协 作 ， 即 2003 年 创建 的 号 码 资 源 组 织 ( NRO) 
[NRO]. # 2-14 给 出 了 本 书写 作 时 (2011 年 中 期 ) 的 一 组 RIR， 它 们 都 加 入 了 NRO, RE 
2011 年 初 ，IANA 拥有 的 剩余 的 IPv4 单 播 地 址 空间 将 移交 给 这 些 RIR 分 配 。 


表 2-14 加 入 NRO 的 地 区 性 Internet 注册 机 构 





RIR 名 称 参考 文献 
AfriNIC 一 一 非洲 网 络 信息 中 心 http://www.afrinic.net 
APNIC 一 一 亚洲 太平 洋 地 区 网 络 信息 中 心 http://www.apnic.net 
ARIN 一 一 美洲 Internet 号 码 注册 机 构 http://www.arin.net 
LACNIC 一 拉丁 美洲 和 加 勒 比 地 区 的 TP 地 址 注册 hitp://lacnic.net/en/index.html 
RIPE NCC 一 一 欧洲 网 络 协 调 中 心 http://www.ripe.net 


这 些 实体 通常 处 理 较 大 的 地 址 块 [IP4AS][IP6AS]。 他 们 为 一 些 国家 (例如 澳大利亚 和 新 
加 坡 ) 运营 的 小 型 注册 机 构 和 大 型 ISP 分 配 地址 空间 。 接 下 来 ，ISP 为 自己 和 自己 的 客户 提 
供 地 址 空间 。 当 用 户 登 记 Internet 服务 时 ， 他 们 通常 以 地 址 前 缀 形式 使 用 ISP 地 址 空间 的 一 
部 分 (通常 很 小 )。 这 些 地 址 范围 由 客户 的 ISP 拥有 和 管理 ， 并 被 称 为 供应 商 聚 合 (PA) 的 地 
址 ， 这 是 由 于 它们 包含 一 个 或 多 个 前 缀 ， 并 可 与 ISP 的 其 他 前 级 实现 聚合 。 这 种 地 址 有 时 也 
称 为 不 可 移植 的 地 址 。 交 换 供应 商 通常 需要 客户 自己 修改 连接 到 Internet 的 所 有 主机 和 路 由 
器 的 耳 前 缀 (这 种 不 愉快 的 操作 通常 称 为 重新 编号 )。 

一 种 可 选 的 地 址 空间 类 型 称 为 供应 商 独立 (PI) 的 地 址 空间 。 从 PI 空间 分 配 的 地 址 可 以 
直接 分 配给 用 户 ， 并 且 可 以 由 任何 ISP 来 使 用 。 但 是 ， 由 于 这 些 地 址 是 客户 拥有 的 ， 它 们 没 
有 与 ISP 的 地 址 在 数字 上 相 邻 ， 因 此 它们 不 能 聚合 。 一 个 ISP 需要 为 客户 的 PI 地 址 提供 路 
由 ， 客 户 可 能 需要 为 路 由 服务 支付 额外 费用 ， 或 根本 不 支持 这 种 服务 。 在 某 种 意义 上 ， 一 个 
ISP 同意 为 客户 的 PI 地 址 提供 路 由 ， 相 对 于 其 他 客户 有 一 个 额外 成 本 ， 它 会 增加 自己 的 路 由 
表 大 小 。 另 一 方面 ， 很 多 站 点 喜欢 使 用 PI 地 址 ， 他 们 可 能 愿意 支付 额外 费用 ， 因 为 有 助 于 
转换 ISP 时 避免 重新 编号 (这 被 称 为 供应 商 锁 )。 
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这 时 ， 可 能 需要 使 用 Internet 中 的 WHOIS 服务 ， 以 确定 如 何 分 配 地 址 空间 。 例 如 ， 我 
们 可 通过 访问 相应 的 URL http://whois.arin.net/rest/ip/72.1.140.203.txt， 形 成 一 个 对 IPv4 地 址 
72.1.140.203 的 信息 查询 : 


NetRange: 
CIDR: 
OriginAS: 
NetName: 
NetHandle: 
Parent: 
NetType: 
RegDate: 
Updated: 
Ref: 


72.1.140.192 - 72.1.140.223 
72.1.140.192/27 


SPEK-SEA5-PART-1 

NET-72-1-140-192-1 

NET-72-1-128-0-1 

Reassigned 

2005-06-29 

2005-06-29 

http: //whois.arin.net/rest/net/NET-72-1-140-192-1 


这 里 ， 我 们 看 到 地 址 72.1.140.203 实际 上 是 网 络 SPEK-SEAS-PART-1 的 一 部 分 ， 并 且 
已 分 配 地 址 范围 72.1.140.192/27。 另 外 ， 我 们 可 以 看 到 ，SPEK-SEA5-PART-1 的 地 址 范围 是 
NET-72-1-128-0-1 的 PA 地 址 空间 的 一 部 分 。 我 们 可 生成 一 个 关于 该 网 络 的 信息 查询 ， 需 要 
访问 URL http://whois.arin.net/rest/net/NET-72-1-128-0-1.txt. 


NetRange: 
CIDR: 
OriginAS: 
NetName: 
NetHandle: 
Parent: 
NetType: 
RegDate: 
Updated: 
Ref: 


72.1.128.0 -~- 72.1.191.255 
72.1.128.0/18 


SPEAKEASY-6 

NET-72-1-128-0-1 

NET-72-0-0-0-0 

Direct Allocation 

2004-09-09 

2009-05-19 
http://whois.arin.net/rest/net/NET-72-1-128-0-1 


这 个 记录 指出 地 址 范围 72.1.128.0/18 ( 称 为 “句柄 ”或 名 称 NET-72-1-128-0-1) CREA 
接 分 配 ， 它 在 ARIN 管理 的 地 址 范围 72.0.0.0/8 之 外 。 有 关 ARIN 支持 的 数据 格式 和 多 种 方 
法 的 更 多 细节 ， 可 以 通过 WHOIS 查询 在 [WRWS] 中 看 到 。 

通过 其 他 Internet 注册 机 构 ， 我 们 可 以 看 到 不 同 的 结果 。 人 例如， 如果 使 用 Web 查询 接口 
http://www.ripe.net/whois 搜索 有 关 IPv4 地 址 193.5.93.80 的 信息 ， 我 们 将 获得 下 面 的 结果 : 


op 


oP oP dP GP OP OP dP dP 


inetnum: 
netname: 
descr: 
descr: 
descr: 
country: 
admin-c: 
tech-c: 
status: 
mnt-by: 


This is the RIPE Database query service. 
The objects are in RPSL format. 


The RIPE Database is subject to Terms and Conditions. 
See http://www.ripe.net/db/support/db-terms-conditions.pdf 


Note: This output has been filtered. 
To receive output for a database update, use the "-B" flag. 
Information related to '193.5.88.0 - 193.5.95.255' 


193.5.88.0 - 193.5.95.255 

WIPONET 

World Intellectual Property Organization 
UN Specialized Agency 

Geneva 

CH 

AM4504-RIPE 

AM4504-RIPE 

ASSIGNED PI 

CH-UNISOURCE-MNT 
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mnt-by: DE-COLT-MNT 
source: RIPE # Filtered 


我 们 可 以 看 到 ， 地 址 193.5.93.80 是 分 配给 WIPO 的 地 址 块 193.5.88.0/21 的 一 部 分 。 注 
意 ， 这 个 块 的 状态 为 ASSIGNED PI， 意 味 着 该 地 址 块 是 供应 商 独 立 类 型 。RPSL 的 参考 文献 
表示 数据 库 记 录 使 用 路 由 策略 规范 语言 [RFC2622][RFC4012]，ISP 用 它 来 表示 自己 的 路 由 策 
略 。 这 些 信 息 允 许 网 络 运营 商 配置 路 由 器 ， 以 帮助 缓解 Internet 中 的 路 由 不 稳定 。 


2.6.2 ”组 播 


在 IPv4 和 IPv6 中 ,组 播 地 址 ( 即 组 地 址 ) 可 根据 其 范围 来 描述 ， 它 们 需要 确定 组 播 方 
式 (静态 、 动 态 的 协议 或 算法 )， 以 及 是 否 使 用 ASM 或 SSM。 这 些 组 的 分 配 策略 已 被 制定 
( [RFC5771] 针对 IPv4 ; [RFC3307] 针对 IPv6 )， 整 体 架 构 在 [RFC6308] 中 详细 描述 。 全 球 
范围 之 外 的 组 (例如 管理 范围 的 地 址 和 IPv6 链 路 范围 的 组 播 地 址 ) 可 在 Internet 的 各 个 部 分 
重复 使 用 ， 并 由 网 络 管理 员 配置 管理 范围 之 外 的 地 址 块 或 由 端 主机 自动 选择 。 静 态 分 配 的 全 
球 范 围 地 址 通常 是 固定 的 ， 并 且 可 能 被 硬件 编码 到 应 用 中 。 这 种 地 址 空间 是 有 限 的 ， 特 别 是 
在 IPv4 中 ， 这 种 地 址 实际 上 计划 被 用 于 任何 其 他 Internet 站 点。 通过 算法 确定 的 全 球 范围 
地 址 可 以 像 GLOP 基于 AS 号 创建 ,或 是 根据 相关 的 单 播 前 缀 分 配 。 注 意 ，SSM 可 使 用 全 
球 范围 的 地 址 ( 即 来 自 SSM 块 )、 管 理 范 围 的 地 址 ,或 前 缀 实际 为 0 的 基于 单 播 前 级 的 IPv6 
地 址 。 

我 们 可 以 看 到 ， 大 量 的 协议 和 复杂 的 组 播 地 址 格式 ， 导 致 组 播 地 址 管理 成 为 一 个 难题 
(更 不 用 说 全 球 组 播 路 由 [RFC5110])。 从 用 户 的 角度 来 看 ， 组 播 很 少 使 用 ， 可 能 受到 的 关注 
有 限 。 从 程序 员 的 角度 来 看 ， 在 应 用 设计 中 支持 组 播 可 能 是 有 价值 的 ，[RFC3170] 提供 了 一 
些 这 方面 的 设想 。 当 网 络 管理 员 需 要 实现 组 播 时 ， 与 服务 提供 商 的 交流 可 能 是 必要 的 。 男 
外 ,一 些 组 播 地 址 分 配方 案 已 由 厂商 开发 [CGEMA]。 


2.7 单 播 地 址 分 配 


一 个 站 点 分 配 了 单 播 IP 地 址 范围 后 一 一 通常 是 从 自己 的 ISP 处 获得 ， 站 点 或 网 络 管理 
员 需 要 决定 如 何 为 每 个 网 络 接口 指定 地 址 ， 以 及 如 何 建立 子 网 结构 。 如 果 这 个 站 点 只 有 一 个 
物理 网 段 (例如 大 多 数 家 庭 )， 这 个 过 程 相对 简单 。 对 于 规模 较 大 的 企业 ， 尤 其 是 那些 由 多 
ISP 提供 服务 ， 并 且 多 个 物理 网 段 分 布 在 很 大 地 理 区 域 的 企业 ， 这 个 过 程 可 能 非常 复杂 。 
我 们 来 看 在 以 下 情况 下 如 何 工 作 ， 家 庭 用 户 使 用 一 个 专用 地 址 和 一 个 ISP 提供 的 IPv4 地 址 。 
这 是 目前 常见 的 场景 。 接 着 ， 我 们 继续 介绍 一 些 更 复杂 的 情况 。 


2.7.1 单个 供应 商 / 无 网 络 / 单个 地 址 


目前 ， 我 们 可 获得 的 最 简单 的 Internet 服务 是 由 ISP 提供 一 个 在 一 台 计 算 机 上 使 用 的 IP 
地 址 (在 美国 通常 只 是 IPv4 )。 例 如 ， 对 于 DSL 服务 ， 单 个 地 址 可 被 分 配 到 一 个 点 到 点 链 路 
的 一 端 ， 并 可 能 只 是 暂时 的 。 例 如 ， 如 果 用 户 的 计算 机 通过 DSL 连接 Internet， 它 可 能 在 某 
天 被 分 配 了 一 个 地 址 63.204.134.177。 在 计算 机 上 运行 的 任何 程序 可 以 发 送 和 接收 Internet 
流量 ， 这 些 流量 将 采用 63.204.134.177 作为 I Pv4 源 地址 。 一 台 主 机 同样 也 有 其 他 活动 的 IP 
地 址 。 这 些 地 址 包括 本 地 的 “ 回 送 ”地 址 (127.0.0.1) 和 一 些 组 播 地 址 ， 至 少 包括 所 有 主机 
的 组 播 地 址 ( 224.0.0.1 ) 。 如 果 主 机 正在 运行 IPv6， 它 至 少 使 用 所 有 节点 的 IPv6 组 播 地 址 
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( ff02::1 )、ISP 分 配 的 任何 IPv6 地 址 、IPv6 回 送 地 址 〈::1 ) 和 为 每 个 网 络 接口 配置 的 一 个 用 
于 IPv6 的 链接 本 地 地 址 。 

为 了 在 Linux 上 查看 一 台 主 机 使 用 的 组 播 地 址 (组 )， 我 们 可 使 用 ifconfig 和 netstat 命令 
查看 正在 使 用 的 IP 地 址 和 组 : 


Linux% ifconfig ppp0 
PPP0 Link encap:Point-to-Point Protocol 
inet addr:71.141.244.213 
P-t-P:71.141.255.254 Mask:255.255.255.255 
UP POINTOPOINT RUNNING NOARP MULTICAST MTU:1492 Metric:1 
RX packets:33134 errors:0 dropped:0 overruns:0 frame:0 
TX packets:41031 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:3 
RX bytes:17748984 (16.9 MiB) TX bytes:9272209 (8.8 MiB) 


Linux% netstat -gn 
IPv6/IPv4 Group Memberships 


Interface RefCnt Group 

lo 1 224.0.0.1 
PPP0 1 224.0.0.251 
PPP0 1 224.0.0.1 
lo 1 ££02::1 


这 里 ， 我 们 看 到 设备 ppp0 关联 的 一 条 点 到 点 链 路 ， 它 已 分 配 IPv4 地 址 71.141.244.213 ; 
但 没有 分 配 IPv6 地 址 。 这 人 台 主 机 系统 已 启用 IPv6， 但 当 检 查 它 的 组 成 员 时 ， 我 们 看 到 其 
本 地 回 送 (lo) 接口 出 现在 “所 有 IPv6 节点 ”组 播 组 中 。 我 们 也 可 以 看 到 ，IPv4 所 有 节点 
组 正在 使 用 ， 以 及 mDNS (组 播 DNS) 服务 [IDChes]。mDNS 协议 使 用 静态 IPv4 组 播 地 址 
224.0.0.251。 


2.7.2 单个 供应 商 / 单个 网 络 / 单个 地 址 


很 多 拥有 多 台 计 算 机 的 Internet 用 户 发 现 ， 只 有 一 台 计 算 机 连接 到 Internet 并 不 是 理想 
情况 。 因 此 ， 他 们 通常 拥有 家 庭 局 域 网 (LAN) 或 无 线 局 域 网 ( WLAN)， 并 使 用 一 台 路 由 
器 或 主机 作为 路 由 器 连接 Internet。 这 种 配置 与 单个 计算 机 的 情况 相似 ， 除 了 路 由 器 将 分 组 
从 家 庭 网 络 转发 到 ISP， 它 们 也 执行 NAT ( 见 第 7 章 ; 在 Windows 中 称 为 Internet 连接 共享 
(ICS))， 在 与 ISP 通信 时 重 写 分 组 中 的 IP 地 址 。 从 ISP 的 角度 来 看 ， 只 有 一 个 IP 地 址 被 使 
用 。 目 前 ， 这 些 操作 大 部 分 是 自动 的 ， 因 此 需要 手动 配置 的 地 址 很 少 。 路 由 器 使 用 DHCP 为 
家 庭 用 户 提 供 自动 地 址 分 配 。 如 果 有 必要 ， 它 们 也 为 与 ISP 建立 链 路 提供 地 址 分 配 。 第 6 章 
详细 介绍 DHCP 操作 和 主机 配置 。 


2.7.3 单个 供应 商 / 多 个 网 络 / 多 个 地 址 


很 多 组 织 发 现 仅 分 配 一 个 单 播 地 址 ， 特 别 是 当 它 只 是 暂时 分 配 时 ， 通 常 无 法 满足 自己 的 
上 网 需求 。 对 于 运行 Internet 服务 器 (例如 Web 站 点 ) 的 组 织 ， 通 常 希 望 拥有 一 个 固定 的 IP 
地 址 。 这 些 站 点 经 常 有 多 个 局 域 网 ， 其 中 有 些 是 内 部 的 (通过 防火 墙 和 NAT 设备 与 Internet 
分 离 ) 有 些 可 能 是 外 部 网 (为 Internet 提供 服务 )。 对 于 这 样 的 网 络 ， 通 常 需要 有 一 个 站 点 
或 网 络 管理 员 ， 以 确定 站 点 需要 多 少 个 IP 地 址 ， 如 何 构建 网 站 的 子 网 ， 以 及 哪些 子 网 是 内 
部 或 外 部 网 。 图 2-16 显示 了 典型 的 中 小 规模 企业 方案 。 
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图 2-16 一 个 典型 的 小 型 到 中 型 规模 的 企业 网 络 。 该 网 站 已 被 分 配 128.32.2.64/26 范围 内 的 64 个 公开 
(可 路 由 ) 的 IPv4 地 址 。“DMZ” 网 络 包 含 Internet 中 可 见 的 服务 器 。 内 部 路 由 器 使 用 NAT 为 
企业 内 部 的 计算 机 提供 Internet 访问 


在 该 图 中 ， 一 个 站 点 已 分 配 前 级 128.32.2.64/26， 提 供 最 多 64 ( 减 2 ) 个 可 路 由 的 IPv4 
地 址 。“DMZ” 网 络 (“ 非 军事 区 ”网 络 ,在 主 防火 墙 之 外 ， 见 第 7 章 ) 用 来 连接 服务 器， 
以 便 Internet 中 的 用 户 可 以 访问 它们 。 这 种 计算 机 通常 提供 Web 访问 、 登 录 服 务 器 和 其 他 
服务 。 这 些 服务 器 的 IP 地 址 来 自前 缀 范围 的 一 小 部 分 ; 很 多 站 点 只 拥有 少数 的 公共 服务 器 。 
站 点 前 缀 中 的 保留 地 址 交 给 NAT 路 由 器 ， 将 它们 作为 一 个 “ NAT 池 ”( 见 第 7 章 ) 的 基础 。 
NAT 路 由 器 可 以 使 用 池 中 的 任何 地 址 重 写 进入 或 离开 内 部 网 络 的 数据 报 。 图 2-16 显示 的 网 
络 设置 很 方便 ， 这 里 主要 有 两 个 原因 。 

首先 ， 将 内 部 网 络 与 DMZ 分 隔 开 ， 有 助 于 保护 内 部 的 计算 机 免 受 破坏 ， 并 由 DMZ 服 
务 器 来 面 对 攻 击 。 另 外 ， 它 会 设置 区 域内 的 IP 地 址 。 在 边界 路 由 器 、DMZ 和 内 部 NAT 路 由 
器 建立 后 ， 可 在 内 部 使 用 任何 地 址 结构 ， 其 中 可 以 使 用 很 多 (专用 的 ) P 地 址 。 当 然 ， 这 个 
例子 只 是 建立 小 型 的 企业 网 络 的 一 种 方式 ， 其 他 因素 (例如 成 本 ) 可 能 最 终 决定 路 由 器 、 网 
26 Al IP 地 址 在 小 型 或 中 型 规模 的 企业 中 的 部 署 方式 。 


2.7.4 多 个 供应 商 / 多 个 网 络 / 多 个 地 址 (多 宿主 ) 


对 于 一 些 依赖 Internet 接 入 来 保证 持续 运营 的 组 织 ， 他 们 通常 使 用 一 个 以 上 的 供应 商 
( 称 为 多 宿主 )， 以 便 在 失效 时 或 其 他 情况 下 提供 元 余 连 接 。 由 于 CIDR， 只 有 一 个 ISP HAA 
通常 拥有 与 该 ISP 相关 联 的 PA 地 址 。 如 果 他 们 又 使 用 一 个 ISP， 这 样 会 出 现 每 个 主机 使 用 
哪个 IP 地 址 的 问题 。 目 前 ， 已 有 针对 多 个 ISP 同时 运行 的 方法 ， 以 及 在 ISP 之 间 转 换 的 指 
导 原 则 (其 中 提出 了 一 些 类 似 问题 )。 对 于 IPv4，[RFC4116] 讨论 了 PI 或 PA 地 址 如 何 用 于 
多 宿主 。 我 们 看 图 2-17 所 示 的 情况 。 
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图 2-17 供应 商 聚 合 和 供应 商 独立 的 IPv4 地 址 用 于 一 个 假设 的 多 宿主 企业 。 如 果 PI 地 址 是 可 用 的 ， 
站 点 运营 者 倾向 于 选择 使 用 PI 空间 。ISP 更 喜欢 PA 空间 ， 因 为 它 可 促进 前 缀 聚合 ,减少 路 
由 表 的 大 小 


这 里 , 一 个 虚拟 的 站 点 S 有 两 个 ISP， 即 P1 和 P2。 如 果 它 使 用 来 自 P1 (12.46.129.0/25 ) 
的 PA 地址 空间 ,将 在 C 和 D 点 把 该 前 缀 分 别 通 知 Pl 和 P2。 这 个 前 级 可 被 Pl 聚合 到 自己 
的 12/8 块 ,并 在 A 点 将 它 通知 Internet 其 他 部 分 , 但 P2 不 能 在 B 点 聚合 该 前 级 ， 因 为 它 与 自 
己 的 前 缀 (137.164/16 ) 在 数值 上 不 相 邻 。 另 外 ， 从 Internet 其 他 部 分 的 一 些 主机 的 角度 来 看 ， 
12.46.129.0/25 的 流量 趋向 于 ISP P2 而 不 是 ISP P1， 因 为 站 点 $ 的 前 级 比 它 通过 Pl 时 更 长 
(“更 具体 ”)。 这 是 Internet 路 由 (详情 见 第 5 章 ) 采用 最 长 匹配 前 组 算法 工作 方式 的 结果 。 
本 质 上 ， 一 台 Internet 其 他 部 分 的 主机 经 过 A 点 匹配 的 前 缀 12.0.0.0/8 或 B 点 匹配 的 前 绷 
12.46.129.0/25 都 可 到 达 12.46.129.1。 由 于 每 个 前 缀 都 匹配 ( 即 目的 地 址 12.46.129.1 中 包含 
一 组 共同 的 前 级 位 )， 则 具有 更 大 或 更 长 的 那个 前 缀 是 首选 ， 在 这 种 情况 下 是 P2。 因 此 ，P2 
位 于 无 法 聚合 来 自 S 的 前 组 的 位 置 ， 并 需要 携带 更 多 站 点 S 的 流量 。 

如 果 站 点 S 决定 使 用 PI 空间 而 不 是 PA 空间 ， 这 个 情况 更 对 称 。 但 是 ， 不 聚合 是 可 能 
的 。 在 这 种 情况 下 ， 它 在 C 和 D 点 将 PI 前 缀 198.134.135.0/24 分 别 通知 P1 和 P2， 但 任何 
ISP 都 不 能 聚合 它 ， 因 为 它 与 ISP 地 址 块 中 任何 一 个 数值 都 不 相 邻 。 因 此 ， 每 个 ISP 在 A 点 
Al B 点 通知 可 识别 的 前 级 198.134.135.0/24。 在 这 种 方式 下 ， 在 Internet 路 由 中 执行 “自然 
的 ”最 短路 径 计算 ， 站 点 $ 可 通过 更 靠近 发 送 主机 的 TSP 到 达 。 另 外 ， 如 果 站 点 S 决定 切换 
另 一 个 ISP， 它 不 需要 改变 其 分 配 的 地 址 。 不 幸 的 是 ， 无 法 聚合 这 种 地 址 可 能 关系 到 Internet 
未 来 的 扩展 性 ， 因 此 PI 空间 相对 供不应求 。 

IPv6 多 宿主 已 成 为 IETF 近年 来 的 研究 课题 ， 并 出 现 了 Multi6 体系 结构 [RFC4177] 
和 Shim6 协议 [RFC5533]。Mnulti6 概括 了 一 些 已 提出 处 理 意见 的 方法 。 从 广义 上 来 说 ， 上 
述 选择 包括 使 用 一 种 相当 于 前 面 提 到 的 IPv4 多 宿主 的 路 由 方式 、 使 用 移动 IPv6 的 能 力 
[RFC6275]， 以 及 采用 一 种 将 节点 标识 符 与 定位 符 分 离 的 新 方法 。 当 前 ，IP 地 址 作为 连接 
Internet 的 一 个 网 络 接口 标识 符 〈 本 质 上 是 一 种 名 称 ) 和 定位 符 (一 种 路 由 系统 理解 的 地 址 )。 
这 种 分 离 使 得 将 来 即使 在 底层 IP 地 址 改变 的 情况 下 网 络 协议 也 能 够 实现 。 提 供 这 种 分 离 的 
协议 有 时 称 为 标识 符 /定位 符 分 离 或 id/loc 分 离 协议 。 
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Shim6 介绍 了 一 个 网 络 层 协议 “隔离 层 ”( shim)， 传 输 层 协议 使 用 它 分 离 来 自 IP 地 址 的 
“上 层 协议 标识 符 ”。 多 宿主 通过 选择 使 用 的 IP 地 址 (定位 符 ) 来 实现 ， 基 于 动态 网 络 环境 且 
不 需要 PI 地 址 分 配 。 通 信和 主机 (端点 ) 之 间 对 使 用 的 定位 符 及 交换 的 时 机 进行 协商 。 标 识 符 
与 定位 符 分 离 是 其 他 几 项 工作 的 主题 ， 包 括 实 验 性 的 主机 标识 协议 (HIP) [RFC4423]， 它 使 
用 加 密 的 主机 标识 符 来 标识 主机 。 这 种 标识 符 实 际 上 是 与 主机 相关 的 公共 /私人 密 钥 对 中 的 
公 钥 ， 因 此 来 源 于 一 个 特定 主机 的 HIP 流量 可 被 认证 。 第 18 章 将 详细 讨论 安全 问题 。 


2.8 与 IP 地 址 相关 的 攻击 

IP 地 址 基本 上 都 是 数字 ， 只 有 少数 网 络 攻击 涉及 它们 。 一 般 情况 下 ， 执 行 攻击 可 发 送 
“欺骗 ”数据 包 ( 见 第 5 章 ) 或 其 他 相关 活动 。 也 就 是 说 ，IP 地 址 现在 有 助 于 查 明 涉 嫌 不 良 
活动 的 个 体 (例如 ， 对 等 网 络 中 的 版 权 侵权 或 非法 材料 分 发 )。 这 样 做 可 能 被 以 下 几 个 原因 所 
误导 。 例 如 ， 在 很 多 情况 下 , IP 地址 只 是 暂时 的 ， 并 在 不 同时 间 重 新 分 配给 不 同 用 户 。 因 此 ， 
在 精确 计时 中 出 现任 何 错误 ， 容 易 造 成 数据 库 中 的 IP 地 址 到 用 户 的 映射 出 错 。 另 外 ， 访 问 
控制 没有 被 广泛 和 安全 地 部 署 ; 用 户 可 能 通过 一 些 公共 的 接 人 点 ， 或 一 些 无 意 中 开 放 的 家 庭 
或 办 公 室 的 无 线路 由 器 连接 Internet。 在 这 种 情况 下 ， 不 知情 的 家 庭 或 企业 所 有 者 可 能 因 IP 
地 址 而 成 为 嫌疑 人 ， 即 使 这 个 人 并 不 是 网 络 流量 的 发 送 者 。 这 种 情况 也 可 能 因 受 攻击 的 主机 
被 用 于 组 成 僵尸 网 络 而 发 生 。 目 前 ， 这 类 计算 机 (和 路 由 器 ) 可 通过 基于 Internet 的 黑市 来 
租赁 ， 并 被 用 于 执行 攻击 、 非 法 内 容 服务 和 其 他 违法 活动 [RFC4948]。 


2.9 总 结 


IP 地 址 用 于 识别 和 定位 整个 Internet 系统 ( 单 播 地 址 ) 中 设备 的 网 络 接口 。 它 也 用 于 识 
别 多 个 接口 (组 播 、 广 播 或 任 播 地 址 ) 。 每 个 接口 有 一 个 最 少 32 位 的 IPv4 地 址 ， 并 且 通 常 有 
几 个 128 位 的 IPv6 地 址 。 单 播 地 址 由 一 些 分 层次 组 织 的 管理 机 构 分 配 成 块 。 由 这 些 机 构 分 
配 的 前 缀 表示 一 个 单 播 IP 地 址 空间 块 ， 这 些 块 通常 分 配给 ISP， 并 由 它们 为 自己 的 用 户 分 配 
地 址 。 这 种 前 级 通常 是 ISP 地 址 块 的 子 区 间 ( 称 为 供应 商 聚 合 的 地 址 或 PA 地 址 )， 但 也 可 能 
代 之 为 用 户 拥有 的 地 址 ( 称 为 供应 商 独立 的 地 址 或 PI 地 址 )。 数 值 相 邻 的 地 址 前 级 (PA 地 址 ) 
可 被 聚合 ， 以 节省 路 由 表 空 间 和 提高 Internet 扩展 性 。 这 种 方法 出 现 于 由 A、B、C 类 网 络 号 
组 成 的 “有 类 别 ”Internet 网 络 结构 被 无 类 别 域 间 路 由 (CIDR) 所 取代 时 。CIDR 允许 根据 对 
地 址 空间 的 不 同 需求 ， 将 不 同 大 小 的 地 址 块 分 配给 某 个 组 织 ，CIDR 实际 上 可 以 更 有 效 地 分 
配 地 址 空间 。 任 播 地 址 是 根据 发 送 者 位 置 指向 不 同 主机 的 单 播 地 址 ; 这 种 地 址 常用 于 发 现 可 
能 出 现在 不 同位 置 的 网 络 服务 。 

IPv6 单 播 地 址 与 IPv4 地 址 有 所 不 同 。 最 重要 的 是 ，IPv6 地 址 有 一 个 范围 的 概念 ， 无 论 是 
单 播 地 址 还 是 组 播 地 址 ， 都 需要 明确 指出 地 址 的 有 效 范 围 。 典 型 的 范围 包括 节点 本 地 、 链 路 
本 地 和 全 球 范围 。 链 路 本 地 地 址 通常 基于 一 个 标准 前 级 和 一 个 D 创建 ， 这 个 IID 可 由 低层 协 
议 (例如 硬件 /MAC 地址) 基于 地 址 提供 或 取 随 机 值 。 这 种 方法 有 助 于 自动 配置 IPv6 地 址 。 

IPv4 和 IPv6 都 支持 同时 指向 多 个 网 络 接口 的 地 址 格式 。IPv4 支持 广播 地 址 和 组 播 地 址 ， 
但 IPv6 只 支持 组 播 地 址 。 广 播 允许 一 人 对 所 有 人 通信 ， 而 组 播 允 许 一 人 对 多 人 通信 。 发 送 
方向 组 播 组 (IP 地 址 ) 的 发 送 ， 其 行为 有 点 像 电视 频道 ;发 送 方 并 不 知道 接收 方 信息 或 一 个 
信道 中 有 多 少 个 接收 方 。Internet 中 的 全 球 性 组 播 已 发 展 了 十 多 年 ， 并 且 涉 及 很 多 协议 ， 有 
些 是 针对 路 由 ， 有 些 是 针对 地 址 分 配 和 协调 ， 有 些 是 针对 主机 希望 加 入 或 离开 一 个 组 的 信 


Internet #4 HE24 #4 49 


息 。 无 论 是 IPv4 还 是 IPv6， 特 别 是 Pv6， 都 有 很 多 类 型 和 用 途 的 组 播 地 址 。IPv6 组 播 地 址 
格式 变化 提供 了 基于 单 播 前 缀 分 配 组 的 方法 ， 在 组 中 嵌入 路 由 信息 ( RP 地 址 )， 并 且 能 基于 
IID 创建 组 播 地 址 。 

可 以 说 CIDR 的 开发 和 部 署 是 Internet 核心 路 由 系统 的 一 个 根本 性 变化 。CIDR 成 功 地 
为 分 配 地 址 空间 提供 更 多 灵活 性 ， 并 通过 聚合 提升 路 由 的 可 扩展 性 。 另 外 ，IPv6 在 20 世纪 
90 年 代 初 开始 受到 更 多 重视 ， 这 是 出 于 很 快 将 会 需要 更 多 地 址 的 想法 。 当 时 没有 预见 的 是 ， 
NAT ( 见 第 7 章 ) 的 广泛 使 用 显著 推迟 了 IPv6 的 使 用 ， 这 是 因为 连接 Internet 的 每 台 主 机 不 
再 需要 唯一 的 地 址 。 相 反 ， 大 型 网 络 使 用 专用 地 址 空间 已 司空 见 惯 。 但 是 ， 可 用 于 路 由 的 人 P 
地 址 数量 最 终 将 减少 到 零 ， 因 此 未 来 将 会 出 现 一些 变 化 。2011 年 2 月 ，IANA 分 配 了 最 后 5 
个 /8 的 IPv4 地 址 前 经，5 个 RIR 各 分 配 1 SATA. 2011 年 04 月 15 日，APNIC 用 尽 了 其 所 
有 可 分 配 的 前 级。 剩余 前 缀 由 不 同 RIR 持 有 ， 预 计 最 多 只 能 几 年 保持 未 分 配 状 态 。[IP4R] 是 
一 个 关于 当前 IPv4 地 址 利用 率 的 统计 。 
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E 路 层 





3.1 引言 


在 第 1 章 中 ， 我 们 知道 TCP/IP 协议 族 中 设计 链 路 层 的 目的 是 为 P 模块 发 送 和 接收 人 P 
数据 报 。 它 可 用 于 携带 一 些 支 持 IP 的 辅助 性 协议 ,例如 ARP《〈 见 第 4), TCP/IP 支持 多 种 
不 同 的 链 路 层 ， 它 依赖 于 使 用 的 网 络 硬件 类 型 : 有 线 局 域 网 ， 例 如 以 太 网 ; 城 域 网 (MAN), 
例如 服务 供应 商 提 供 的 有 线 电视 和 DSL 连接 ; 有 线 语音 网 络 ， 例 如 支持 调制 解 调 器 的 电话 
Be; 无 线 网 络 ， 例 如 Wi-Fi (无 线 局 域 网 ) ;基于 蜂窝 技术 的 各 种 无 线 数据 服务 ， 例 如 HSPA, 
EV-DO, LTE 和 WiMAX。 在 本 章 中 ， 我 们 将 详细 讨论 以 下 内 容 : 在 以 太 网 和 Wi-Fi 的 链 路 
层 中 ， 如 何 使 用 点 到 点 协议 (PPP)， 如 何在 其 他 〈 链 路 或 更 高 层 ) 协议 中 携带 链 路 层 协议 ， 
以 及 一 种 称 为 隧道 的 技术 等 。 详 细 描 述 当前 使 用 的 每 种 链 路 技术 需要 专门 一 本 书 才 行 ， 因 此 
我 们 将 注意 力 集中 在 一 些 带 用 的 链 路 层 协议 ， 以 及 TCP/P 中 如 何 使 用 它们 。 

大 多 数 链 路 层 技术 都 有 一 个 相关 的 协议 ， 描 述 由 网 络 硬件 传输 的 相应 PDU 格式 。 在 描 
述 链 路 层 的 PDU 时 ， 我 们 通常 使 用 术语 帧 ， 以 区 分 那些 更 高 层 的 PDU 格式 ， 例 如 描述 网 络 
层 和 传输 层 PDU 的 分 组 和 段 。 帧 格式 通常 支持 可 变 的 帧 长 度 ， 范 围 从 几 字 节 到 几 千 字 节 。 这 
个 范围 的 上 限 称 为 最 大 传输 单元 (MTU)， 我 们 将 在 后 续 章 节 中 提 到 链 路 层 的 这 一 特点 。 有 
些 网 络 技术 〈 例 如 调制 解 调 器 和 串 行 线路 ) 不 强制 规定 最 大 的 帧 ， 因 此 它们 可 以 由 用 户 来 
配置 。 


3.2 MANM IEEE 802 局 域 网 / 城 域 网 标准 
以 太 网 这 个 术语 通常 指 一 套 标准 ， 由 DEC、Intel 公司 和 Xerox 公司 在 1980 年 首次 发 布 ， 
并 在 1982 年 加 以 修订 。 第 一 个 常见 格式 的 以 太 网 ， 目 前 被 称 为 “10MbyAs 以 太 网 ”或 “共享 以 
网 ”， 它 被 IEEE 采纳 (轻微 修改 ) 为 802.3 标准 。 这 种 网 络 的 结构 通常 如 图 3-1 所 示 。 
站 


| 






共享 的 以 太 网 段 
a CLAN) 


图 3-1 基本 的 共享 以 太 网 包含 一 个 或 多 个 站 (例如 工作 站 、 超 级 计算 机 )， 它 们 都 被 连接 到 一 个 共享 的 
电缆 段 上 。 当 介质 被 确定 为 空闲 状态 时 ， 链 路 层 的 PDU (W) 可 从 一 个 站 发 送 到 一 个 或 更 多 其 
他 站 。 如 果 多 个 站 同时 发 送 数据 ， 可 能 因 信和 号 传播 延迟 而 发 生 碰 撞 。 碰 撞 可 以 被 检测 到 ， 它 会 
导致 发 送 站 等 待 一 个 随机 时 间 ， 然 后 重新 发 送 数据 。 这 种 常见 的 方法 称 为 带 冲 突 检 测 的 载波 侦 
听 多 路 访问 
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由 于 多 个 站 共享 同一 网 络 ， 该 标准 需要 在 每 个 以 太 网 接口 实现 一 种 分 布 式 算法 ， 以 控 
制 一 个 站 发 送 自己 的 数据 。 这 种 特定 方法 称 为 带 冲突 (或 称 碰撞 ) 检测 的 载波 贷 听 多 路 访问 
(CSMA/CD)， 它 协调 哪些 计算 机 可 访问 共享 的 介质 (电缆 )， 同 时 不 需要 其 他 特殊 协议 或 同 
步 。 这 种 相对 简单 的 方法 有 助 于 降低 成 本 和 促进 以 太 网 技术 普及 。 

FH CSMA/CD, 一 个 站 (例如 计算 机 ) 首先 检测 目前 网 络 上 正在 发 送 的 信号 ， 并 在 网 
络 空闲 时 发 送 自己 的 帧 。 这 是 协议 中 的 “载波 侦 听 ”部 分 。 如 果 其 他 站 碰巧 同时 发 送 ， 发 生 
重 到 的 电信 号 被 检测 为 一 次 碰撞 。 在 这 种 情况 下 ， 每 个 站 等 待 一 个 随机 时 间 ， 然 后 再 次 学 
试 发 送 。 这 个 时 间 量 的 选择 依据 一 个 统一 的 概率 分 布 ， 随 后 每 个 碰撞 被 检测 到 的 时 间 长 度 加 
音 。 最 终 ， 每 个 站 会 得 到 机 会 发 送 ， 或 者 在 尝试 一 定 次 数 (传统 以 太 网 为 16 ) 后 超时 。 采 用 
CSMA/CD， 在 任何 给 定 的 时 间 内 ， 网 络 中 只 能 有 一 个 帧 传输 。 如 CSMA/CD 这 样 的 访问 方 
法 更 正式 的 名 称 为 介质 访问 控制 (MAC) HN. MAC 协议 有 很 多 类 型 ， 有 些 基 于 每 个 站 学 
试 独立 使 用 网 络 (例如 CSMA/CD 的 基于 竞争 的 协议 )， 有 些 基 于 预先 安排 的 协调 (例如 依据 
为 每 个 站 分 配 的 时 段 发 送 )。 

随 着 10Mb/s 以 太 网 的 发 展 ， 更 快 的 计算 机 和 基础 设施 使 得 局 域 网 速度 不 断 提 升 。 由 于 
以 太 网 的 普及 ,已 取得 以 下 显著 创新 和 成 果 : 其 速度 从 10Mb/s 增加 到 100Mb/s、1000Mb/s、 
10Gb/s， 现 在 甚至 更 高 。10Gb/s 技术 在 大 型 数据 中 心 和 大 型 企业 中 越 来 越 普遍 ， 并 且 已 被 证 实 
可 达到 100Gb/s 的 速度 。 最 早 (研究 ) 的 以 太 网 速度 为 3Mb/s, 但 DIX (Digital, Intel, Xerox) 
标准 可 达到 10Mbls， 它 在 一 条 共享 的 物理 电缆 或 由 电子 中 继 器 互联 的 一 组 电缆 上 运行 。20 tH 
纪 90 年 代 初 ， 共 享 的 电缆 已 在 很 大 程度 上 被 双 绞 线 (类 似 电话 线 ， 通 常 称 为 “10BASE-T”) 
代替 。 随 着 100Mb/s (也 称 为 “快速 以 太 网 *， 最 流行 的 版 本 是 “100BASE-TX”) 的 发 展 ， 基 
于 竞争 的 MAC 协议 已 变 得 不 流行 。 相 反 ， 局 域 网 中 每 个 站 之 间 的 线路 通常 不 共享 ， 而 是 提供 
了 一 个 专用 的 星 形 拓扑 结构 。 这 可 以 通过 以 太 网 交换 机 来 实现 ， 如 图 3-2 所 示 。 


站 





图 3-2 ”一 个 交换 式 以 太 网 包含 一 个 或 多 个 站 ， 每 个 站 使 用 一 条 专用 的 线路 连接 到 一 个 交换 机 端口 。 在 
大 多 数 情况 下 ， 交 换 式 以 太 网 以 全 双 工 方式 运行 ， 并 且 不 需要 使 用 CSMA/CD 算法 。 交 换 机 可 
以 通过 交换 机 端口 级 联 形成 更 大 的 以 太 网 ， 该 端口 有 时 也 称 为 “上 行 ” 端 口 


目前 ,交换 机 为 以 太 网 中 的 每 个 站 提供 同时 发 送 和 接收 数据 的 能 力 ( 称 为 “全 双 工 以 太 
网 ”)。 虽 然 1000Mb/s 以 太 网 ( 1000BASE-T) 仍 支持 半 双 工 (一 次 一 个 方向 ) 操作 ,但 相对 
于 全 双 工 以 太 网 来 说 ， 它 很 少 使 用 。 下 面 我 们 将 详细 讨论 交换 机 如 何 处 理 PDU。 

当前 连接 Internet 的 最 流行 技术 之 一 是 无 线 网 络 ， 常 见 的 无 线 局 域 网 (WLAN) IEEE 标 


es, 


准 称 为 无 线 保 真 或 Wi-Fi， 有 时 也 称 为 “无 线 以 太 网 ”或 802.11。 虽 然 这 个 标准 与 802 有 线 
以 太 网 标准 不 同 ， 但 帧 格式 和 通用 接口 大 部 分 来 自 802.3， 并 且 都 是 IEEE 802 局 域 网 标准 的 
一 部 分 。 因 此 ，TCP/IP 用 于 以 太 网 的 大 部 分 功能 ， 也 可 用 于 Wi-Fi 网 络 。 我 们 将 详细 探讨 这 
些 功 能 。 首 先 ， 我 们 描绘 一 个 建立 家 庭 和 企业 网 络 的 所 有 IEEE 802 标准 的 蓝图 。 这 里 也 包 
括 那 些 涉及 城 域 网 的 IEEE 标准 ， 例 如 IEEE 802.16 (WiMAX) 和 蜂窝 网 络 中 的 异 构 网 络 无 
缝 切换 标准 (IEEE 802.21 ) 。 


3.2.1 IEEE 802 局 域 网 / 城 域 网 标准 


原始 的 以 太 网 帧 格式 和 工作 过 程 由 前 面 提 到 的 行业 协议 所 描述 。 这 种 格式 被 称 为 DIX 
格式 或 Ethernet I 格式 。 对 这 种 类 型 的 以 太 网 稍 加 修改 后 ， 由 IEEE 标准 化 为 一 种 CSMA/ 
CD 网 络 ， 称 为 802.3。 在 IEEE 标准 中 ， 带 802 前 级 的 标准 定义 了 局 域 网 和 城 域 网 的 工作 过 
程 。 当 前 最 流行 的 802 标准 包括 802.3 (以 太 网 ) 和 802.11 (WLAN/Wi-Fi)。 这 些 标准 随 着 时 
间 推 移 而 演变 ， 经 过 独立 修订 后 名 称 发 生 改 变 (例如 802.11g)， 并 最 终 被 纳入 修订 过 的 标准 。 
表 3-1 显示 了 一 个 相当 完整 的 列表 ， 包 括 截至 2011 年 年 中 支持 TCP/IP 的 相关 IEEE 802 局 
域 网 和 城 域 网 标准 。 


表 3-1 有 关 TCP/IP 协议 的 局 域 网 和 城 域 网 IEEE 802 标准 ( 2011 ) 


名 称 官方 参考 
802.1AE MAC 安全 (MACSec) [802.1 AE-2006] 
802.1q [802.1Q-2005/Corl-2008] 
2 80210205 
32.10 3021208 
5023 025.208) OT 
bo 5023-208) 0827) 
802.3x [802.3-2008] 
802.3z/802.3ab [802.3-2008] (第 3 节 ) 
802.3ae [802.3-2008] (第 4 节 ) 
802.3ah [802.3-2008] (第 5 节 ) 


802.11b 运行 在 2.4GHz 的 11Mb/s 的 无 线 局 域 网 [802.11-2007] 
802.1le 针对 802.11 的 QoS 增强 [802.11-2007] 
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( 2 ) 

名 称 官方 参考 
运行 在 2.4GHz 和 5GHz 的 6.5 ~ 600Mb/s 的 无 线 局 域 网 ， 

802.11n B euie ie oie 的 无 线 局 域 网 ,| [802.11n.2009 
802.11s (草案 ) 开发 中 
802.11y [802.11y-2008] 
302.16 216,208 
802.21 [802.21-2008} 


除了 802.3, 802.11, 802.16 标准 定义 的 特定 类 型 的 局 域 网 之 外 ， 还 有 一 些 相 关 标 准 适 
用 于 所 有 IEEE 标准 的 局 域 网 技术 。 最 常见 的 是 定义 逻辑 链 路 控制 (LLC) 的 802.2 标准 ， 其 
WARE 802 网 络 的 帧 格式 中 常见 。 在 IEEE 的 术语 中 ，LLC 和 MAC 是 链 路 层 的 “ 子 层 ”， 
LLC (多 数 帧 格式 ) 对 每 种 网 络 都 是 通用 的 ， 而 MAC 层 可 能 有 所 不 同 。 虽 然 最 初 的 以 太 网 
使 用 CSMA/CD, 但 无 线 局 域 网 常 使 用 CSMA/CA (CA 是 “冲突 避免 ”)。 


注意 不 幸 的 是 ，802.2 和 802.3 共同 定义 了 与 Ethernet I 不同 的 帧 格式 ， 这 个 
情况 直到 802.3x 才 最 终 纠正 。 它 已 经 被 纳入 [802.3-2008]。 在 TCP/IP 世界 中 ， 
[RFC0894] 和 [RFC2464] 定义 了 针对 以 太 网 的 IP 数 据 报 封装 ， 但 旧 的 LLC/SNAP 
封装 仍 发 布 在 [RFC1042] 中 。 虽 然 这 不 再 是 一 个 大 问题 ， 但 它 曾 经 令 人 关注 ， 并 偶 
尔 出 现 类 似 问题 [RFC4840]。 


直到 最 近 ， 帧 格式 在 本 质 上 还 一 直 相同 。 为 了 获得 该 格式 的 详细 信息 ， 并 了 解 它 是 如 何 
演变 的 ， 我 们 现在 将 焦点 转向 这 些 细节 。 


3.2.2 ”以 太 网 帧 格式 


所 有 的 以 太 网 (802.3) 帧 都 基于 一 个 共同 的 格式 。 在 原 有 规范 的 基础 上 ， 帧 格式 已 被 
改进 以 支持 额外 功能 。 图 3-3 显示 了 当前 的 以 太 网 帧 格式 ， 以 及 它 与 IEEE 提出 的 一 个 相对 
新 的 术语 IEEE 分 组 (一 个 在 其 他 标准 中 经 常 使 用 的 术语 ) 的 关系 。 

以 太 网 帧 开始 是 一 个 前 导 字段 ， 接 收 器 电路 用 它 确定 一 个 帧 的 到 达 时 间 ， 并 确定 编码 位 
( 称 为 时 钟 恢复 ) 之 间 的 时 间 量 。 由 于 以 太 网 是 一 个 异步 的 局 域 网 ( 即 每 个 以 太 网 接口 卡 中 不 
保持 精确 的 时 钟 同步 )， 从 一 个 接口 到 另 一 个 接口 的 编码 位 之 间 的 间隔 可 能 不 同 。 前 导 是 一 
个 公认 的 模式 (典型 值 为 0xAA)， 在 发 现 帧 起 始 分 隔 符 (SFED) 时 ， 接 收 器 使 用 它 “ 恢 复 时 
H” o SFD 的 固定 值 为 0xAB。 
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” \ 基本 帧 ;64 ~ 1518 字 节 
”802.1p/q 标 签 ‘ Q 标 签 帧 : 64 ~ 1522 字 节 
ra (如 果 存 在 ) X 信封 帧 : 64 ~ 2000 字 节 
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(Q 标 签 帧 是 信封 帧 ) 

16 位 3 1 12 


图 3-3 以 太 网 (IEEE 802.3) 帧 格式 包含 一 个 源 地 址 和 目的 地 址 、 一 个 重 载 的 长 度 /类 型 字段 、 一 个 
数据 字段 和 一 个 帧 校 验 序 列 〈CRC32 )。 另 外 ， 基 本 帧 格式 提供 了 一 个 标签 ， 其 中 包含 一 个 
VLAN ID 和 优先 级 信息 (802.1p/q)， 以 及 一 个 最 近 出 现 的 可 扩展 标签 。 前 导 和 SED 被 用 于 接 
收 器 同步 。 当 以 太 网 以 半 双 工 模式 运行 在 100Mb/s 或 以 上 速率 时 ， 其 他 位 可 能 被 作为 载体 扩展 
添加 到 短 帧 中 ， 以 确保 冲突 检测 电路 的 正常 运行 


注意 ”最初 以 太 网 的 位 编码 使 用 两 个 电压 等 级 的 曼彻斯特 相位 编码 (MPE)。 通 过 
MPE， 每 位 被 编码 为 电压 变化 ， 而 不 是 绝对 值 。 例 如 ，0 位 被 编码 为 从 -0.85V 到 
+ 0.85V 的 变化 ，1 位 被 编码 为 从 + 0.85V 到 -0.85V 的 变化 (OV 指 共 享 线路 处 于 
空闲 状态 )。10Mb/s 以 太 网 规范 要 求 网 络 硬件 使 用 20MHz 振荡 器 ， 因 为 MPE 的 每 
位 需要 两 个 时 钟 周 期 。 字 节 OxAA (二 进 制 为 10101010 ) 在 以 太 网 的 前 导 中 ， 表 示 
为 一 个 + 0.85 和 -0.85V 之 间 的 10MHz 频率 的 方 波 。 在 其 他 以 太 网 标准 中 ， 曼 彻 
斯 特 编码 被 蔡 换 为 不 同 编码 ， 以 提高 效率 。 


这 个 基本 的 帧 格式 包括 48 位 (6 字 节 ) 的 目的 地 址 (DST) 和 源 地 址 (SRC) 字段 。 这 
些 地 址 有 时 也 采用 其 他 名 称 ， 例 如 “MAC 地址 ”"、“ 链 路 层 地 址 ”"、“802 地 址 ”、“ 硬 件 地 址 ” 
或 “物理 地 址 ”。 以 太 网 帧 的 目的 地 址 也 允许 寻 址 到 多 个 站 点 ( 称 为 “广播 ”或 “组 播 "， 见 
第 9 章 )。 广 播 功能 用 于 ARP 协议 〈 见 第 4 章 )， 组 播 功 能 用 于 ICMPv6 协议 ( 见 第 8 章 )， 以 
实现 网 络 层 地 址 和 链 路 层 地 址 之 间 的 转换 。 
源 地 址 后 面 紧 跟着 一 个 类 型 字段 ， 或 一 个 长 度 字 段 。 在 多 数 情况 下 ， 它 用 于 确定 头 
部 后 面 的 数据 类 型 。TCP/IP 网 络 使 用 的 常见 值 包括 IPv4 ( 0x0800 )、IPv6 ( 0x86DD) 和 
ARP (0x0806 )。0x8100 表示 一 个 Q 标签 帧 (可 携带 一 个 “虚拟 局 域 网 ”或 802.1q 标准 的 
VLAN ID), 一 个 以 太 网 帧 的 基本 大 小 是 1518 字 节 ， 但 最 近 的 标准 将 该 值 扩大 到 2000 字 节 。 


注意 最 初 的 IEEE ( 802.3.) 规范 将 长 度 /类 型 字段 作为 长 度 字 段 而 不 是 类 型 字段 使 
用 。 因 此 ， 这 个 字段 被 重 载 (可 用 于 多 个 目的 )。 关 键 是 看 字段 值 。 目 前 ， 如 果 字 段 
值 大 于 或 等 于 1536， 则 该 字段 表示 类 型 ， 它 是 由 标准 分 配 的 超过 1536 的 值 。 如 果 字 
段 值 等 于 或 小 于 1500， 则 该 字段 表示 长 度 。[ETHERTYPES] 给 出 了 类 型 的 完整 列表 。 
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在 上 述 字段 之 后 ，[802.3-2008] 提供 了 多 种 标签 包含 由 其 他 IEEE 标准 定义 的 各 种 协议 
字段 。 其 中 ， 最 常见 的 是 那些 由 802.1p 和 802.1q 使 用 的 标签 ， 它 提供 虚拟 局 域 网 和 一 些 服 


SIRE (QoS) 指示 符 。 这 些 在 3.2.3 节 讨 论 。 


注意 当前 的 [802.3-2008] 标准 采用 修改 后 的 802.3 MBA, RKA 482 FH 
的 “标签 "”， 它 携带 在 每 个 以 太 网 帧 中 。 这 些 较 大 的 帧 称 为 信封 帧 ， 长 度 最 大 可 能 
达到 2000 字 节 。 包 含 802.1p/q 标签 的 帧 称 为 Q 标签 帧 ， 也 是 信封 帧 。 但 是 ， 并 非 


所 有 信封 帧 必然 是 Q 标签 帧 。 


在 这 些 讨 论 过 的 字段 之 后 ， 是 帧 的 数据 区 或 有 效 载荷 部 分 。 这 里 是 放 高 层 PDU (例如 IP 
数据 报 ) 的 地 方 。 传 统 上 ， 以 太 网 的 有 效 载荷 一 直 是 1500 字 节 ， 它 代表 以 太 网 的 MTU。 目 
前 ， 大 多 数 系统 为 以 太 网 使 用 1500 字 节 的 MTU， 虽 然 在 必要 时 它 也 可 设置 为 一 个 较 小 的 
值 。 有 效 载荷 有 时 被 填充 (添加 ) 数 个 0， 以 确保 帧 总 体 长 度 符合 最 小 长 度 要 求 ， 这 些 我 们 


将 在 3.2.2.2 节 讨 论 。 


3.2.2.1 帧 校 验 序 列 / 循环 元 余 校 验 

在 以 太 网 帧 格式 中 ， 有 效 载荷 区 域 之 后 
的 最 后 字段 提供 了 对 帧 完整 性 的 检查 。 循 环 
TARE (CRC) 字段 位 于 尾部 ， 有 32 位 ， 
有 时 称 之 为 IEEE/ANSI 标准 的 CRC32 [802.3- 
2008]。 要 使 用 一 个 nn 位 CRC 检测 数据 传输 
错误 ,被 检查 的 消息 首先 需要 追加 nn 位 0 形 
成 一 个 扩展 消息 。 然 后 ， 扩 展 消 息 (使 用 
模 2 除法 ) 除 以 一 个 (n+ 1) 位 的 值 ， 这 个 
作为 除数 的 值 称 为 生成 多 项 式 。 放 置 在 消息 
的 CRC 字段 中 的 值 是 这 次 除法 计算 中 余数 
的 二 进 制 反 码 ( 商 被 丢弃 )。 生 成 多 项 式 已 
被 标准 化 为 一 系列 不 同 的 n 值 。 以 太 网 使 用 
n= 32，CRC32 的 生成 多 项 式 是 33 位 的 二 
进 制 数 100000100110000010001110110110111。 
为 了 理解 如 何 使 用 ( mod 2 ) 二 进 制 除法 计算 
余数 ， 我 们 看 一 个 CRC4 的 简单 例子 。 国 际 
电信 联盟 (ITU) 将 CRC4 的 生成 多 项 式 值 
标准 化 为 10011， 这 是 在 G.704 [G704] 标 
准 中 规定 的 。 如 果 我 们 要 发 送 16 位 的 消息 
1001111000101111， 首 先 开始 进行 图 3-4 所 
示 的 (mod 2 ) 二 进 制 除法 。 

在 该 图 中 ， 我们 看 到 这 个 除法 的 余数 
是 4 位 的 值 1111。 通 常 ， 该 余数 的 反 码 
(0000 ) 将 放置 在 帧 的 CRC 或 帧 校 验 序列 
(FCS) 字段 中 。 在 接收 到 数据 之 后 ， 接 收 方 
执行 相同 的 除法 计算 出 余数 ， 并 判断 该 值 与 


1000011000000101 i (丢弃 ) 
10011110001011110000 
10011 
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余数 


图 3-4 长 (mod2) 二进制 除法 演示 了 
CRC4 的 计算 过 程 
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FCS 字段 的 值 是 否 匹 配 。 如 果 两 者 不 匹配 ， 帧 可 能 在 传输 过 程 中 受 损 ， 通常 被 丢弃 。CRC YW 
能 可 用 于 提示 信息 受 损 ， 因 为 位 模式 的 任何 改变 极 可 能 导致 余数 的 改变 。 


3.2.2.2” 帧 大 小 

以 太 网 帧 有 最 小 和 最 大 尺寸 。 最 小 的 帧 是 64 字 节 ， 要 求 数据 区 (有 效 载 荷 ) KE (无 标 
签 ) 最 小 为 48 字 节 。 当 有 效 载 荷 较 小 时 ， 填 充 字 节 ( 值 为 0 ) 被 添加 到 有 效 载荷 尾部 ， 以 确 
保 达 到 最 小 长 度 。 


注意 最 小 长 度 对 最 初 的 10Mb/s 以 太 网 的 CSMA/CD 很 重要 。 为 了 使 传输 数据 的 
站 能 知道 哪个 帧 发 生 了 冲突 ， 将 一 个 以 太 网 的 最 大 长 度 限 制 为 2300m (通过 4 个 
中 继 器 连接 的 5 个 500m 的 电缆 段 )。 根 据 电 子 在 铜 缆 中 传播 速度 约 为 0.77c (4 
2.31 x 10*m/s)， 可 得 到 64 字 节 采 用 10Mb/s 时 的 传输 时 间 为 64x8/10 000 000 = 
51.2 上 LSs， 最 小 尺寸 的 帧 能 在 电缆 中 传输 约 11 000m。 如 果 采 用 一 条 最 长 为 2500m 
的 电缆 ， 从 一 个 站 到 另 一 个 站 之 间 的 最 大 往返 距离 为 S000m。 以 太 网 设计 者 确定 最 
小 帧 长 度 基于 安全 因素 ， 在 完全 兼容 (和 很 多 不 兼容 ) 的 情况 下 ， 一 个 输出 帧 的 最 
后 位 在 所 需 时 间 后 仍 处 于 传输 过 程 中 ， 这 个 时 间 是 信号 到 达 位 于 最 大 距离 的 接收 器 
并 返回 的 时 间 。 如 果 这 时 检测 到 一 个 冲突 ， 传 输 中 的 站 能 知道 哪个 帧 发 生 冲 突 ， 即 
当前 正在 传输 中 的 那个 帧 。 在 这 种 情况 下 ， 该 站 发 送 一 个 干扰 信号 (高 电压 ) 提醒 
其 他 站 ， 然 后 启动 一 个 随机 的 二 进 制 指数 退 避 过 程 。 


传统 以 太 网 的 最 大 帧 长 度 是 1518 字 节 (包括 4 字 节 CRC 和 14 字 节 头 部 )。 选 择 这 个 值 
出 于 一 种 折 中 : 如 果 一 个 帧 中 包括 一 个 错误 (接收 到 不 正确 的 CRC 校 验 )， 只 需 重 发 1.5KB 
以 修复 该 问题 。 另 一 方面 ，MTU 大 小 限制 为 1500 字 节 。 为 了 发 送 一 个 更 大 的 消息 ， 则 需要 
多 个 帧 (例如 ， 对 于 TCP/IP 网 络 常用 的 较 大 尺寸 64KB ， 需 要 至 少 44 个 帧 )。 

由 多 个 以 太 网 帧 构成 一 个 更 大 的 上 层 PDU 的 后 果 是 ， 每 个 帧 都 贡献 了 一 个 固定 开销 
(14 字 节 的 头 部 和 4 字 节 的 CRC)。 更 糟 的 是 ， 为 了 允许 以 太 网 硬件 接收 电路 正确 恢复 来 
自 网 络 的 数据 ， 并 为 其 他 站 提供 将 自己 的 流量 与 已 有 流量 区 分 开 的 机 会 ， 以 太 网 帧 在 网 络 中 
不 能 无 颖 地 压缩 在 一 起 。Ethermet I 规范 除了 在 帧 开始 处 定义 了 7 字 节 前 导 和 1 字 节 SFD 之 
外 ， 还 指定 了 12 字 节 的 包间 距 (IPG) 时 间 ( 10Mb/s 为 9.6us，100MbAs 为 960ns，1000Mb/s 为 
96ns，10 000Mb/s 为 9.6ns)。 因 此 ，Ethernet I 的 每 帧 效率 最 多 为 1500/(12 + 8 + 14 + 1500 + 4) = 
0.975 293， 约 98%。 一 种 提高 效率 的 方式 是 ， 在 以 太 网 中 传输 大 量 数据 时 ， 尽 量 使 帧 尺寸 更 大 
一 些 。 这 可 采用 以 太 网 巨型 帧 [JF] 来 实现 ， 它 是 一 种 非 标 准 的 以 太 网 扩展 (主要 在 1000Mb/s 以 
太 网 交换 机 中 使 用 )， 通 常 允许 帧 尺寸 高 达 9000 字 节 。 有 些 环境 使 用 的 帧 称 为 超级 巨型 帧 ， 它 
们 通常 超过 9000 字 节 。 在 使 用 巨型 帧 时 要 谨慎 ， 这 些 较 大 的 帧 无 法 与 较 小 的 1518 字 节 的 帧 
互 操作 ， 因 为 它们 无 法 由 大 多 数 传统 以 太 网 设备 处 理 。 


3.2.3 802.1p/q: 虚拟 局 域 网 和 QoS 标签 


随 着 交换 式 以 太 网 的 使 用 越 来 越 多 ， 位 于 同一 以 太 网 中 的 每 台 主机 互 连 已 成 可 能 。 这 样 
做 的 好 处 是 ,任何 主机 都 可 直接 与 其 他 主机 通信 ， 它 们 使 用 IP 和 其 他 网 络 层 协 议 ， 并 很 少 
或 根本 不 需要 管理 员 配 置 。 另 外 ,广播 和 组 播 流 量 〈 见 第 9 章 ) 被 分 发 到 所 有 希望 接收 的 主 
机 ， 而 不 必 建 立 特 殊 的 组 播 路 由 协议 。 虽 然 这 是 很 多 主机 位 于 同一 以 太 网 的 优势 ， 但 在 很 多 
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主机 使 用 广播 时 ， 广 播 到 每 台 主 机 将 带 来 大 量 网 络 流量 ， 并 出 于 某 些 安全 因素 可 能 要 禁止 任 
意 站 之 间 通 信 。 

为 了 解决 大 型 多 用 途 交 换 网 络 运行 中 的 问题 ，IEEE 采用 一 种 称 为 虚拟 局 域 网 (VLAN) 
的 功能 扩展 802 LAN 标准 ， 它 被 定义 在 802.1q [802.1Q-2005] 标准 中 。 兼 容 的 以 太 网 交换 机 
将 主机 之 间 的 流量 分 隔 为 常见 的 VLAN。 注 意 ， 正 是 由 于 这 种 分 隔 ， 连 在 同一 交换 机 但 在 不 
同 VLAN 中 的 两 台 主机 ， 它 们 之 间 的 流量 需要 一 台 路 由 器 来 传递 。 已 研发 出 交换 机 /路 由 器 
组 合 设 备 来 满足 这 种 需求 ， 路 由 器 性 能 最 终 得 到 改进 以 匹配 VLAN 交换 性 能 。 因 此 ，VLAN 
的 吸引 力 已 有 所 减弱 ， 现 代 高 性 能 路 由 器 逐渐 取代 它们 。 尽 管 如 此 ， 它 们 仍 在 使 用 ， 在 某 些 
环境 中 仍 受 欢迎 ， 因 此 有 必要 了 解 它们 。 

工作 站 到 VLAN 的 映射 有 几 种 方法 。 通 过 端口 分 配 VLAN 是 一 种 简单 而 常见 的 方法 ， 
交换 机 端口 所 连接 的 站 被 分 配 在 一 个 特定 VLAN 中 ， 这 样 连接 的 任意 站 就 都 成 为 VLAN 中 
的 成 员 。 其 他 选择 包括 基于 MAC 地 址 的 VLAN， 以 太 网 交换 机 使 用 表 将 一 个 站 的 MAC 地 
址 映射 到 一 个 VLAN。 如 果 有 些 站 改变 它们 的 MAC 地 址 (由 于 某 些 用 户 行为 ， 有 时 需要 这 
样 做 )， 它 们 可 能 变 得 难以 管理 。IP 地 址 也 可 用 作 分 配 VLAN 的 基础 。 

当 不 同 VLAN 中 的 站 连接 在 同一 交换 机 时 ， 交 换 机 确保 流量 不 在 两 个 VLAN 之 间 泄 漏 ， 
无 论 这 些 站 使 用 哪 种 类 型 的 以 太 网 接口 。 当 多 个 VLAN 跨越 多 个 交换 机 (中 继 ) 时 ， 在 以 太 
网 帧 发 送 到 另 一 台 交 换 机 之 前 ， 需 要 使 用 VLAN 来 标记 该 帧 的 归属 。 本 功能 使 用 一 个 称 为 
VLAN 标签 (RAR) 的 标记 ， 其 中 包含 12 位 VLAN 标识 符 (提供 4096 A VLAN, 但 保留 
VLAN 0 和 VLAN 4095 )。 它 还 包含 支持 QOS 的 3 位 优先 级 (定义 在 802.1p 标准 中 )， 如 图 
3-3 所 示 。 在 很 多 情况 下 ， 管 理 员 必须 配置 交换 机 端口 ， 以 便 发 送 802.1p/q 帧 时 能 中 继 到 适 
当 的 端口 。 为 了 使 这 项 工作 更 加 容易 ， 有 些 交 换 机 通过 中 继 端口 支持 本 地 VLAN 选项 ， 这 意 
味 着 未 标记 的 帧 默认 与 本 地 VLAN 相关 。 中 继 端 口 用 于 互 连 带 VLAN 功能 的 交换 机 ， 其 他 
端口 通常 用 于 直接 连接 工作 站 。 有 些 交 换 机 还 支持 专用 的 VLAN 中 继 方 法 ， 例 如 思科 内 部 交 
换 链 路 (ISL) 协议 。 

802.1p 规定 了 在 帧 中 表示 QoS 标识 符 的 机 制 。802.1p 头 部 包括 一 个 3 位 优先 级 字段 ， 
它 用 于 表明 一 个 QoS 级 别 。 这 个 标准 是 802.1q VLAN 标准 的 扩展 。 这 两 个 标准 可 以 一 起 工 
作 ， 并 在 同一 头 部 中 共享 某 些 位 。 它 用 3 个 有 效 位 定义 了 8 个 服务 级 别 。0 级 为 最 低 优先 级 ， 
用 于 传统 的 尽力 而 为 的 流量 。7 级 为 最 高 优先 级 ， 可 用 于 关键 路 由 或 网 管 功能 。 这 个 标准 规 
定 了 优先 级 如 何 被 编码 在 分 组 中 ， 但 没 指 定 如 何 控制 哪些 分 组 采用 哪个 级 别 ， 以 及 实现 优先 
级 服务 的 底层 机 制 ， 这 些 可 由 具体 的 实现 者 来 定义 。 因 此 ， 一 个 优先 级 流量 相对 于 另 一 个 的 
处 理 方式 是 由 实现 或 供应 商定 义 的 。 注 意 ， 如 果 802.1p/q 头 部 中 的 VLAN ID 字段 被 设置 为 
0，802.1p 可 以 独立 于 VLAN 使 用 。 

控制 802.1p/q 信息 的 Linux 命令 是 vconfig。 它 可 用 来 添加 和 删除 虚拟 接口 ， 即 与 物理 
接口 相关 联 的 VLAN ID。 它 也 可 用 来 设置 802.1p RER, 更改 虚 拟 接 口 确定 方式 ,改变 由 
特定 VLAN ID 标记 的 分 组 之 间 的 上 映射， 以 及 协议 在 操作 系统 中 处 理 时 如 何 划 分 优先 级 。 下 
面 的 命令 为 VLAN ID 为 2 的 接口 ethl 添加 、 删 除 虚 拟 接口 ， 修 改 虚拟 接口 的 命名 方式 并 添 
加 新 接口 : 


Linux# vconfig add eth1 2 
Added VLAN with VID == 2 to IF -:ethl:- 
Linux# ifconfig eth1.2 
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ethl.2 Link encap:Ethernet HWaddr 00:04:5A:9F:9E:80 
BROADCAST MULTICAST MTU:1500 Metric:1 
RX packets:0 errors:0 dropped:0 overruns:0 frame:0 
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 

Linux# vconfig rem eth1.2 

Removed VLAN -:eth1.2:- 

Linux# vconfig set name type VLAN_PLUS_VID 

Set name-type for VLAN subsystem. Should be visible in 
/proc/net/vlan/config 

Linux# vconfig add eth1 2 

Added VLAN with VID == 2 to IF -:ethl:- 

Linux# ifconfig vlan0002 

vlan0002 Link encap:Ethernet HWaddr 00:04:5A:9F:9E:80 
BROADCAST MULTICAST MTU:1500 Metric:1 
RX packets:0 errors:0 dropped:0 overruns:0 frame:0 
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 


这 里 ， 我 们 可 以 看 到 在 Linux 中 ， 虚 拟 接口 命名 的 默认 方法 是 将 相关 物理 接口 与 VLAN 
ID 串联 。 例如，VLAN ID 2 与 接口 ethl 关联 为 eth1.2。 这 个 例子 还 显示 了 另 一 种 命名 方法 ， 
VLAN 被 枚 举 为 名 称 vlan <n>， 其 中 <n> 是 VLAN 的 标识 符 。 一 旦 这 样 设置 ，VLAN 设备 
发 送 帧 会 如 期 望 的 那样 被 标记 为 VLAN ID。 我 们 可 通过 Wireshark 看 到 ， 如 图 3-5 所 示 。 


an2-arp2.td - Wireshark 





a TT Sr 
Source: 00:04:5a:9F:9e:80 (00:04:5a:9f:9e:80) 


Type: 802.1Q Virtual LAN (Ox8100) 
S02. 1 irtual LAM, PRI: Q, CFL: IDs 2 
Sl a wale wd = Priority: Best Effort (default) (0 
EO Peed aseamana = CFI: Canonical (0) 
+ 0000 0000 0010 = ID: 2 
Type: ARP (Ox0806) 
Trailer: 0000000000000000000000000000 


00 06 04 00 01 00 04 5a 9f 
00 00 00 00 00 0a 00 00 63 W 





图 3-5 VLAN ID 标记 的 帧 显示 在 Wireshark 中 。 默 认 的 列 和 设置 已 被 修改 ， 
以 显示 VLAN ID 和 原始 以 太 网 地 址 


本 图 显示 了 一 个 在 VLAN 2 中 传输 的 ARP 分 组 ( 见 第 4 章 )。 我 们 可 以 看 到 ， 该 帧 大 小 
为 60 字 节 (不 包括 CRC). HWA Ethernet I 封装 (类 型 0x8100 )， 表 示 一 个 VLAN。 男 外 ， 
VLAN 头 部 表明 该 帧 属于 VLAN 2， 优 先 级 为 0， 并 且 是 普通 帧 。 其 他 字段 如 我 们 预期 的 是 
一 个 普通 ARP 分 组 。 


3.2.4 802.1AX: 链 路 聚合 ( 以 前 的 802.3ad ) 
有 些 系统 配备 多 个 网 络 接口 ， 具 有 绑 定 (bonding) 或 链 路 聚合 能 力 。 通 过 链 路 聚合 ， 两 
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个 或 更 多 接口 被 视 为 一 个 ， 通 过 宛 余 或 将 数据 分 割 (分 拆 ) 到 多 个 接口 ， 提 高 性 能 并 获得 更 
好 的 可 靠 性 。IEEE 修订 的 802.1AX [802.1AX-2008] 定义 了 最 常用 的 链 路 聚合 方法 ， 以 及 可 
管理 这 些 链 路 的 链 路 聚合 控制 协议 (LACP)。LACP 使 用 一 种 特定 格式 的 IEEE 802 Wi ( 称 为 
LACPDU). 

以 太 网 交换 机 支持 的 链 路 聚合 是 一 个 替代 方案 ， 它 比 支持 更 高 速 网 络 接口 的 性 价 比 高 。 
如 果 多 个 端口 聚合 能 提供 足够 的 带宽 ， 则 可 能 并 不 需要 高 速 接口 。 链 路 聚合 不 仅 可 被 网 络 交 
换 机 支持 ， 而 且 可 在 一 台 主 机 上 跨越 多 个 网 络 接口 卡 (NIC)。 在 通常 情况 下 ， 聚 合 的 端口 必 
须 是 同一 类 型 ， 并 工作 在 同一 模式 〈 半 双 工 或 全 双 工 ) Fo 

Linux 可 实现 跨越 不 同类 型 设备 的 链 路 聚合 ( 绑 定 )， 使 用 以 下 命令 : 


Linux# modprobe bonding 
Linux# ifconfig bond0 10.0.0.111 netmask 255.255.255.128 
Linux# ifenslave bond0 eth0 wlan0 


这 组 命令 中 的 第 一 个 用 于 加 载 绑 定 驱动 ， 它 是 一 个 支持 链 路 聚合 的 特殊 设备 驱动 程序 。 
第 二 个 命令 使 用 IPv4 地 址 来 创建 bond0 接口 。 虽 然 IP 相关 信息 对 创建 聚合 接口 不 是 必需 
的 ， 但 它 是 典型 的 。 在 ifenslave 命令 执行 后 ， 绑 定 设 备 bond0 用 MASTER 标志 来 标记 ， 而 
设备 eth0 和 wlan0 用 SLAVE 标志 来 标记 : 


bond0 Link encap:Ethernet HWaddr 00:11:A3:00:2C:2A 
inet addr:10.0.0.111 Bceast:10.0.0.127 Mask:255.255.255.128 
inet6 addr: fe80::21l:a3f£:fe00:2c2a/64 Scope:Link 
UP BROADCAST RUNNING MASTER MULTICAST MTU:1500 Metric:1 
RX packets:2146 errors:0 dropped:0 overruns:0 frame:0 
TX packets:985 errors:0 dropped:0 overruns:0 carrier:0 
collisions:18 txqueuelen:0 
RX bytes:281939 (275.3 KiB) TX bytes:141391 (138.0 KiB) 
eth0 Link encap:Ethernet HWaddr 00:11:A3:00:2C:2A 
UP BROADCAST RUNNING SLAVE MULTICAST MTU:1500 Metric:1 
RX packets:1882 errors:0 dropped:0 overruns:0 frame:0 
TX packets:961 errors:0 dropped:0 overruns:0 carrier:0 
collisions:18 txqueuelen:1000 
RX bytes:244231 (238.5 KiB) TX bytes:136561 (133.3 KiB) 
Interrupt:20 Base address:0x6c00 
wlan0 Link encap:Ethernet HWaddr 00:11:A3:00:2C:2A 
UP BROADCAST SLAVE MULTICAST MTU:1500 Metric:1 
RX packets:269 errors:0 dropped:0 overruns:0 frame:0 
TX packets:24 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:1000 
RX bytes:38579 (37.6 KiB) TX bytes:4830 (4.7 KiB) 


在 这 个 例子 中 ,我 们 将 一 个 有 线 以 太 网 接口 和 一 个 Wi-Fi 接口 绑 定 在 一 起 。 为 主 设备 
bond0 分 配 了 IPv4 地 址 信息 ， 通 常 分 配给 两 个 独立 接口 之 一 ， 它 默认 使 用 第 一 个 从 设备 的 
MAC 地 址 。 当 IPv4 流量 通过 bondo 虚拟 接 日 发 送 时 ， 很 可 能 使 用 不 同 的 从 设备 来 发 送 。 在 
Linux 中 ， 当 绑 定 的 驱动 程序 被 加 载 时 ， 可 使 用 系统 提供 的 参数 选择 选项 。 例 如 ， 模 式 选 
项 决定 了 能 否 做 以 下 工作 : 在 接口 之 间 使 用 循环 交付 ， 一 个 接口 作为 另 一 个 接口 的 备份 使 
用 ， 基 于 对 MAC 源 地 址 和 目的 地 址 执行 的 异 或 操作 选择 接口 ， 将 帧 复制 到 所 有 接口 ， 执 
行 802.3ad 标准 的 链 路 聚合 ， 或 采用 更 先进 的 负载 平衡 选项 。 第 二 种 模式 用 于 高 可 用 性 系 
统 ， 当 一 个 链 路 停止 运行 时 (由 MII 监控 来 检测 ; 更 多 细节 见 [BOND])， 这 种 系统 将 故障 部 
分 转移 到 宛 余 的 网 络 基础 设施 上 。 第 三 种 模式 是 基于 流量 的 流向 选择 从 接口 。 如 果 目 的 地 完 
全 不 同 ， 两 个 站 之 间 的 流量 被 固定 到 一 个 接口 。 在 希望 尽量 少 尝试 重新 排序 ， 并 保证 多 个 接 
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口 负载 平衡 的 情况 下 ， 这 种 模式 可 能 是 有 效 的 。 第 四 种 模式 针对 容错 。 第 五 种 模式 用 于 支持 
802.3ad 的 交换 机 ， 在 同类 链 路 上 实现 动态 聚合 能 力 。 

LACP 协议 旨 在 通过 避免 手工 配置 ， 以 简化 链 路 聚合 的 建立 工作 。 在 LACP“ 主 角 ” (K 
Pim) 和 “参与 者 ”( 服 务 器 ) 启用 后 ， 它 们 通常 每 秒 都 会 发 送 LACPDU。LACP 自动 确定 哪 
些 成 员 链 路 可 被 聚合 成 一 个 链 路 聚合 组 (LAG)， 并 将 它们 聚合 起 来 。 这 个 过 程 的 实现 需要 通 
过 链 路 发 送 一 系列 信息 (MAC 地址、 端口 优先 级 、 端 口号 和 密 钥 )。 一 个 接收 站 可 比较 来 自 
其 他 端口 的 值 ， 如 果 匹 配 就 执行 聚合 。LACP 协议 的 细节 见 [802.1AX-2008]。 


3.3 全 双 工 、 省 电 、 自 动 协商 和 802.1X 流量 控制 


当 以 太 网 最 初 被 开发 出 来 时 ， 它 仅 工 作 在 半 双 工 模式 ， 并 使 用 一 条 共享 的 电缆 。 也 就 是 
说 ， 同 一 时 间 内 只 能 在 一 个 方向 发 送 数据 ， 因 此 在 任何 时 间 点 只 有 一 个 站 可 发 送 一 个 帧 。 随 着 
交换 式 以 太 网 的 发 展 ， 网 络 不 再 是 单一 的 共享 线路 ， 而 代 之 以 很 多 链 路 的 组 合 。 因 此 ， 多 个 站 
之 间 可 以 同时 进行 数据 交换 。 另 外 ， 以 太 网 被 修改 为 全 双 工 操作 ， 这 样 可 以 有 效 禁 用 冲突 检测 
电路 。 这 样 也 可 以 增加 以 太 网 的 物理 长 度 ， 因 为 半 双 工 操作 和 冲突 检测 的 相关 时 间 约 束 被 取消 。 

在 Linux 中 ，ethtool 程序 可 用 于 查询 是 否 支 持 全 双 工 ， 以 及 是 否 正在 执行 全 双 工 操作 。 
这 个 工具 也 可 显示 和 设置 以 太 网 接口 的 很 多 属性 : 


Linux# ethtool eth0 
Settings for eth0: 

Supported ports: [ TP MII ] 

Supported link modes: 10baseT/Half 10baseT/Full 

100baseT/Half 100baseT/Full 

Supports auto-negotiation: Yes 

Advertised link modes: 10baseT/Half 10baseT/Full 

100baseT/Half 100baseT/Full 

Advertised auto-negotiation: Yes 

Speed: 10Mb/s 

Duplex: Half 

Port: MII 

PHYAD: 24 

Transceiver: internal 

Auto-negotiation: on 

Current message level: 0x00000001 (1) 

Link detected: yes 

Linux# ethtool eth1 
Settings for ethl: 

Supported ports: [ TP ] 

Supported link modes: l10baseT/Half 10baseT/Full 
100baseT/Half 100baseT/Full 
1000baseT/Full 

Supports auto-negotiation: Yes 

Advertised link modes: 10baseT/Half 10baseT/Full 
100baseT/Half 100baseT/Full 
1000baseT/Full 

Advertised auto-negotiation: Yes 

Speed: 100Mb/s 

Duplex: Full 

Port: Twisted Pair 

PHYAD: 0 

Transceiver: internal 

Auto-negotiation: on 

Supports Wake-on: umbg 

Wake-on: g 
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Current message level: 0x00000007 (7) 
Link detected: yes 


在 这 个 例子 中 ， 第 一 个 以 太 网 接口 (eth0 ) 连接 到 一 个 半 双 工 的 10Mb/s 网 络 。 我 们 看 到 
它 能 够 自动 协商 ， 这 是 一 种 来 源 于 802.3u 的 机 制 ， 使 接口 能 交换 信息 〈 例 如 速度 ) 和 功能 
(例如 半 双 工 或 全 双 工 运行 )。 自 动 协商 信息 在 物理 层 通过 信号 交换 ， 它 可 在 不 发 送 或 接收 数 
据 时 发 送 。 我 们 可 以 看 到 ， 第 二 个 以 太 网 接口 paaa 
(ethl ) 也 支持 自动 协商 ， 它 的 速率 为 100Mb/ 
s 工作 模式 为 金 双 工 。 Hih {E (Port, 
PHYAD 、Transceiver) 指出 物理 端口 类 型 、 地 
址 ， 以 及 物理 层 电 路 在 NIC 内 部 还 是 外 部 。 
当前 消息 级 别 用 于 配置 与 接口 操作 模式 相关 的 
日 志 消 息 ， 它 的 行为 由 使 用 的 驱动 程序 指定 。 
我 们 在 下 面 的 例子 讨论 如 何 设置 这 些 值 。 

在 Windows 中 ,我 们 可 以 看 到 以 下 细节 ， 
首先 进入 “控制 面板 ”中 的 “网 络 连 接 ”， 然 
后 在 感 兴趣 的 接口 上 单 击 鼠 标 右键 并 选择 “ 属 
性 ”， 然 后 单 击 “ 配 置 ” 框 并 选择 “高 级 ” 选 
项 卡 。 这 时 ， 将 打开 一 个 类 似 图 3-6 (这 个 例 
子 来 自 Windows 7 机 器 上 的 以 太 网 接口 ) 所 示 
的 对 话 框 。 | 
在 图 3-6 中 ,我 们 可 看 到 通过 适配器 的 设 图 3-6 Windows (7) 的 网 络 接口 属性 的 “高 级 ” 
备 驱 动 程序 来 配置 的 特殊 功能 。 对 于 这 个 特殊 el i i ia 
的 适配器 和 驱动 程序 ，802.1p/q 标签 可 启用 或 SET tree. 
禁用 ， 也 可 提供 流量 控制 和 唤醒 功能 ( 见 3.3.2 节 )。 我 们 可 以 手工 设置 速率 和 双 工 模式 ， 或 
使 用 更 典型 的 自动 协商 选项 。 


3.3.1 双 工 不 匹配 


自动 协商 曾经 有 一 些 互 操 作 性 问题 ， 特 别 是 一 台 计 算 机 及 其 相关 的 交换 机 端口 使 用 不 同 
的 双 工 配置 时 ， 或 者 当 自 动 协商 只 在 链 路 的 一 端 被 禁用 时 。 在 这 些 情况 下 ， 可 能 会 发 生 双 工 
不 匹配 。 令 人 惊讶 的 是 ， 当 这 种 状况 发 生 时 ， 连 接 不 会 完全 失败 ， 但 可 能 带 来 显著 的 性 能 下 
降 。 当 网 络 中 出 现 中 等 程度 的 双向 流量 繁忙 时 (例如 ， 在 大 数据 传输 期 间 )， 一 个 半 双 工 接口 
会 将 输入 的 流量 检测 为 冲突 ， 从 而 触发 以 太 网 MAC 的 CSMA/CD 的 指数 退 避 功能 。 同 时 ， 
导致 这 个 冲突 的 数据 被 丢弃 ， 这 可 能 需要 更 高 层 协 议 (例如 TCP) 重 传 。 因 此 ， 性 能 下 降 可 
能 只 在 半 双 工 接口 发 送 数据 ， 同 时 又 有 大 量 流量 需要 接收 时 才 是 明显 的 ， 站 处 于 轻 负载 时 通 
常 不 会 发 生 这 种 情况 。 一 些 研究 者 已 试图 开发 分 析 工 具 来 检测 这 种 问题 [SC05]。 


3.3.2 ”局域网 唤醒 (WoL )、 省 电 和 魔术 分 组 


在 Linux 和 Windows 的 例子 中 ， 我 们 看 到 一 些 电源 管理 方面 的 功能 。Windows 唤醒 功能 
和 Linux 唤醒 选项 用 于 使 网 络 接口 或 主机 脱离 低 功 耗 (睡眠 ) 状态 ， 这 是 基于 某 类 分 组 的 传输 
来 实现 的 。 这 种 分 组 用 来 触发 可 配置 的 功率 状态 改变 。 在 Linux 中 ， 用 于 唤醒 的 值 可 以 是 零 ， 
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或 者 是 多 个 用 于 低 功 耗 状态 唤醒 的 位 ， 它 们 可 以 被 以 下 几 种 帧 所 触发 : 任何 物理 层 (PHY) 活 
Z) (p)、 发 往 站 的 单 播 帧 (Cu), REW (m)、 广 播 帧 Cb), ARP Wi Ca), ERE Cg), AK 
包括 密码 的 魔术 分 组 帧 。 这 些 都 可 以 使 用 ethtool 的 选项 来 配置 。 例 如 ， 可 以 使 用 以 下 命令 : 


Linux# ethtool -s eth0 wol umgb 


当 接 收 到 任何 u、m、g 或 b 类 型 的 帧 时 ， 这 个 命令 将 eth0 设备 配置 为 发 送 一 个 唤醒 信 
号 。Windows 提供 了 类 似 的 功能 ， 但 标准 的 用 户 接 口 只 支持 魔术 分 组 帧 ， 以 及 一 个 预定 义 的 
u.m, b 和 a 类 型 帧 的 子 集 。 魔 术 分 组 包含 一 个 字 节 值 0xFF 的 特定 重复 模式 。 在 通常 情况 下 ， 
这 种 帧 采用 UDP 分 组 ( 见 第 10 Bt) 形式 封装 在 以 太 网 广播 帧 中 发 送 。 有 几 个 工具 可 以 生成 
它们 ， 包 括 wol [WOL]: 


Linux# wol 00:08:74:93:C8:3C 
Waking up 00:08:74:93:C8:3C... 


这 个 命令 的 结果 是 构造 一 个 魔术 分 组 ， 我 们 可 以 使 用 Wireshark 查看 (ILEI 3-7). 


pt. td - Wiresh 


fa MAC: DellComp_93:c8:3c €00:08:74:93:c8:3c) 
: Dellcomp_93:¢B:3¢ (00:08:74:93:c8:3c) 
> DellComp_93;c8:3c (00;08:74:93;c8:3c) 
: Dellcomp_93:c8:3c (00:08:74:93:¢c8:3c) 
: DellComp_93:c8:3c (00:08:74:93:;c8:3c) 
: Dellcomp_93:c8:3c (00:08:74:93:;c8:3c) 
: Dellcomp_93:c8:3c (€00:08:74:93:c8:3c) 


: Dellcomp_93:c8:3c (00:;08:74:93:c8:3c) 
: Dellcomp_93:¢c8:3¢ (00:08:74:93:c8:3c) 
+ Dell Comp_93:c8:3c (00:08:74:93:¢c8:3c) 


: DeT Comp_93:c8:3¢ (00:08:74:93:c8:3c) 
: Dellcomp_93:c8:3c (€00:08:74:93:c8:3c) 
; Del 1Comp_93:c8:3¢ (00;:08;74;93:¢cB8:3c) 
: Dellcomp_93:c8:3c (00:08:74 :93:c8:3C) 
: Dellcomp_93:c8:3c (€00:08:74:93:c8:3c) 
i: DellComp_93:¢8;3c (00:08:74:93:c8:3c) 
: Dellcomp_93:c8:3c (00:08:74 :93:¢8:3c) 











0 了 
00 40 00 40 11 26 Se Oa 00 00 o1 oa o 
0020 站 od 04 66 9c 40 00 Ge 7 eT TT TT Et ds, 





图 3-7 Wireshark 中 的 一 个 魔术 分 组 帧 ， 开 始 是 6 字 节 的 0xFF， 然 后 重复 MAC 地 址 16 次 


图 3-7 中 显示 的 分 组 多 数 是 传统 的 UDP 分 组 ， 但 端口 号 (1126 和 40000 ) 是 任意 的 。 
分 组 中 最 特别 的 是 数据 区 域 。 它 以 一 个 6 字 节 的 值 0xFF 开始 ， 其 余部 分 包含 重复 16 次 的 目 
的 MAC 地 址 00:08:74:93:C8:3C。 该 数据 的 有 效 载荷 模式 定义 了 魔术 分 组 。 


3.3.3” 链 路 层 流 量 控 制 


以 全 双 工 模式 运行 扩展 的 以 太 网 和 跨越 不 同 速率 的 网 段 时 ， 可 能 需要 由 交换 机 将 帧 组 
存 (保存 ) 一 段 时 间 。 例 如 ， 当 多 个 站 发 送 到 同一 目的 地 ( 称 为 输出 端口 争 用 )， 这 种 情况 可 
能 发 生 。 如 果 一 个 站 聚合 的 流量 速率 超过 该 站 的 链 路 速率 ， 那 么 帧 就 开始 存储 在 中 间 交 换 机 
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中 。 如 果 这 种 情况 持续 一 段 时 间 ， 这 些 帧 可 能 被 丢弃 。 

缓解 这 种 情况 的 一 种 方法 是 在 发 送 方 采取 流量 控制 (使 它 慢 下 来 )。 一 些 以 太 网 交换 机 
(和 接口 ) 通过 在 交换 机 和 网 卡 之 间 发 送 特 殊 信号 帧 来 实现 流量 控制 。 流 量 控 制 信号 被 发 送 
到 发 送 方 ， 通 知 它 必须 放 慢 传输 速率 ， 但 规范 将 这 些 细节 留 给 具体 实现 来 完成 。 以 太 网 使 用 
PAUSE 消息 (也 称 为 PAUSE W) 实现 流量 控制 ， 它 由 802.3x[802.3-2008] 来 定义 。 

PAUSE 消息 包含 在 MAC 控制 帧 中 ， 通 过 将 以 太 网 长 度 /类 型 字段 值 设 为 0x8808， 以 及 
使 用 MAC 控制 操作 码 0x0001 来 标识 。 如 果 一 个 站 接收 到 这 种 帧 ， 表 示 建 议 它 减缓 发 送 速 
度 。PAUSE 帧 总 是 被 发 送 到 MAC 地 址 01:80:C2:00:00:01， 并 且 只 能 在 全 双 工 链 路 上 使 用 。 
它 包含 一 个 保持 关闭 (hold-off) 时 间 值 (指定 量 为 512 比特 的 时 间 )， 表 明 发 送 方 在 继续 发 送 
之 前 需要 暂停 多 长 时 间 。 

MAC 控制 帧 采用 如 图 3-3 所 示 的 常规 封装 的 帧 格式 ,但 紧 跟 在 长 度 / 类 型 字段 后 的 是 一 
个 2 字 节 的 操作 码 。PAUSE 帧 实际 上 是 唯一 一 种 使 用 MAC 控制 帧 的 帧 类 型 。 它 包括 一 个 2 
字 节 的 保持 关闭 时 间 。“ 整 个 ”MAC 控制 层 (基本 只 是 802.3x 流量 控制 ) 的 实现 是 可 选 的 。 

以 太 网 层次 的 流量 控制 可 能 有 重大 负面 影响 ， 因 此 通常 并 不 使 用 它 。 当 多 个 站 通过 一 台 
过 载 的 交换 机 发 送 时 ( 见 下 一 节 )， 该 交换 机 通常 回 所 有 主机 发 送 PAUSE 帧 。 不 幸 的 是 ， 交 
换 机 的 内 存 使 用 可 能 对 发 送 主机 不 均衡 ， 因 此 有 些 主机 可 能 被 惩罚 (流量 控制 )， 即 使 它们 对 
交换 机 流量 过 载 没有 多 少 责任 。 


3.4 网 桥 和 交换 机 


IEEE 802.1d 标准 规定 了 网 桥 的 操作 ， 交 换 机 本 质 上 是 高 性 能 的 网 桥 。 网 桥 或 交换 机 用 
于 连接 多 个 物理 的 链 路 层 网 络 〈 例 如 一 对 物理 的 以 太 网 段 ) 或 成 组 的 站 。 最 基本 的 设置 涉及 
连接 两 个 交换 机 来 形成 一 个 扩展 的 局 域 网 ， 如 图 3-8 所 示 。 







交换 机 B 
00:0d:66:4 人 02:04 


00:c0:19:33:0a:2e ”交换 机 A 
00:0d:66:4f:02:03 


00:30:48:2b:19:86 


图 3-8 一 个 包括 两 台 交换 机 的 扩展 以 太 网 。 每 个 交换 机 端口 有 一 个 编号 ， 
每 个 站 (包括 每 个 交换 机 ) 有 自己 的 MAC 地 址 


图 中 的 交换 机 A 和 B 互 连 形成 一 个 扩展 的 局 域 网 。 在 这 个 特定 例子 中 ， 客 户 端 系统 都 
连接 到 A， 服务 器 都 连接 到 B， 端 口 编号 供 参 考 。 注 意 ， 每 个 网 络 单元 (包括 每 个 交换 机 ) 
有 自己 的 MAC 地 址 。 每 个 网 桥 经 过 一 段 时 间 对 域外 MAC 地址 的 “学 习 ” 后 ， 最 终 每 个 交 
换 机 会 知道 每 个 站 可 由 哪个 端口 到 达 。 每 个 交换 机 基于 每 个 端口 (也 可 能 是 每 个 VLAN) 的 
列表 被 存储 在 一 张 表 ( 称 为 过 滤 数 据 库 ) 中 。 图 3-9 显示 每 个 交换 机 了 解 每 个 站 的 位 置 后 ， 
形成 的 包含 这 些 信息 的 数据 库 例子 。 

当 第 一 次 打开 一 个 交换 机 (网 桥 ) 时 ， 它 的 数据 库 是 空 的 ， 因 此 它 不 知道 除 自己 之 外 的 
任何 站 的 位 置 。 当 它 每 次 接收 到 一 个 目的 地 不 是 自己 的 帧 时 ， 它 为 除 该 帧 到 达 的 端口 之 外 的 
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所 有 端口 做 一 个 备份 ， 并 向 所 有 端口 发 送 这 个 帧 的 备份 。 如 果 交 换 机 (网 桥 ) 未 学 习 到 站 的 


位 置 ， 每 个 帧 将 会 被 交付 到 每 个 网 段 ， 这 样 会 导致 不 必要 的 开销 。 学 习 能 力 可 以 显著 降低 开 
销 ， 它 是 交换 机 和 网 桥 的 一 个 基本 功能 。 


00:17:f2:a2:10:3d 


00:c0:19:33:0a:2e EJ 


00:17:f2:a2:10:3d | 9 | 


00:c0:19:33:0a:2e | 9 | 


Foorassaro20s | 
00:30:48:2b:19:86 
交换 机 A 的 数据 库 交换 机 B 的 数据 库 


00:0d:66:4f:02:03 | 9 | 
00:04:66:4f:02:04 | | 
00:30:48:2b:19:82 


00:30:48:2b:19:86 | 11 | 





3-9 交换 机 A 和 B 中 的 过 滤 数 据 库 是 从 图 3-8 经 过 一 段 时 间 “ 学 习 ”， 
通过 查看 交换 机 端口 上 的 帧 的 源 地 址 来 创建 


目前 ， 多 数 操作 系统 支持 网 络 接口 之 间 的 网 桥 功能 ， 这 意味 着 具有 多 个 接口 的 计算 机 
可 用 作 网 桥 。 例 如 ， 在 Windows 中 ， 多 个 接口 可 被 桥接 ， 进 入 “控制 面板 ”的 “网 络 连接 ” 
菜单 ， 选 中 (突出 显示 ) 需要 桥接 的 接口 ， 点 击 鼠 标 右键 ， 并 选择 “网 桥 连接 ”。 这 时 ， 出 


现 一 个 表示 网 桥 功 能 的 新 图 标 。 许 多 接口 相关 的 正常 网 络 属性 消失 ， 取 而 代 之 的 是 网 桥 设备 
( 见 图 3-10 ) 。 





图 3-10 在 Windows 中 ,通过 选中 需要 桥接 的 网 络 接口 ， 鼠 标 右 击 并 选择 桥接 网 络 接口 ， 
可 创建 网 桥 设备 。 在 网 桥 建 立 之 后 ， 可 进一步 修改 网 桥 设 备 


图 3-10 显示 Windows 7 中 的 虚拟 网 桥 设备 的 属性 面板 。 网 桥 设 备 的 属性 包括 一 个 被 桥 
接 的 相关 设备 列表 ， 以 及 在 网 桥 上 运行 的 一 组 服务 (例如 ，Microsoft 网 络 客户 端 、 文 件 和 打 


印 机 共享 等 )。Linux 以 类 似 方式 工作 ， 它 使 用 命令 行 参数 。 在 这 个 例子 中 ,我 们 使 用 图 3-11 
所 示 的 拓扑 结构 。 


Fl 3-11 
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eth1:00:07:e9:14:a9:cl — eth0:00:08:74:93:¢8:3c 


00:04:5a:9f:9e:80 





到 互联 网 


在 这 个 简单 的 拓扑 中 ,一 台 基 于 Linux 的 PC 被 配置 为 网 桥 ， 它 在 两 个 以 太 网 之 间 实 现 互联 。 
作为 一 个 处 于 学 习 中 的 网 桥 ， 它 不 断 积 累 并 建立 一 些 表 ， 其 中 包含 有 关 哪 个 端口 可 到 达 扩展 
局 域 网 中 的 其 他 系统 的 信息 


在 图 3-11 中 ， 这 个 简单 的 网 络 使 用 一 台 基 于 Linux 、 带 两 个 端口 的 PC 作为 网 桥 。 只 有 


一 个 站 连接 到 端口 2， 网 络 其 他 部 分 都 连接 到 端口 1。 以 下 命令 可 启用 网 桥 : 


Linux# bretl addbr bzr0 
Linux# brctl addif br0 eth0 
Linux# brctl addif br0 eth1 
Linux# ifconfig eth0 up 
Linux# ifconfig eth1 up 
Linux# ifconfig br0 up 


以 下 几 个 命令 可 创建 一 个 网 桥 设 备 br0， 并 为 网 桥 增加 接口 eth0 和 eth1. bretl delif 命令 


可 用 于 删除 接口 。 在 建立 接口 之 后 ，brctl showmacs 命令 可 用 于 检查 过 滤 数 据 库 ( 称 为 转发 
数据 库 ， 用 Linux 的 术语 称 为 fdbs): 


Linux# bretl show 
bridge name bridge id 
br0 


STP enabled interfaces 
8000.0007e914a9c1 no eth0 ethl 


Linux# brctI showmacs br0 

port no mac addr is local? ageing timer 
1 00:04:5a:9f:9e:80 no 0.79 

yes 0.00 

yes 0.00 

no 0.81 

no 2.53 

no 17.13 


这 个 命令 的 输出 显示 关于 网 桥 的 其 他 细节 。 由 于 站 可 能 出 现 移动 、 网 卡 更 换 、MAC 地 


FRPNFN 
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址 改变 或 其 他 情况 ， 所 以 就 算 网 桥 曾 发 现 一 个 MAC 地 址 可 通过 某 个 端口 访问 ， 这 个 信息 也 
不 能 假设 永远 是 正确 的 。 为 了 解决 这 个 问题 ， 在 每 次 学 习 一 个 地 址 后 ， 网 桥 启 动 一 个 计时 器 
(通常 默认 为 5 分 钟 )。 在 Linux 中 ， 每 个 学 习 条 目 使 用 一 个 与 网 桥 相 关 的 固定 时 间 。 如 果 在 
指定 的 “有 效 期 ”内 ， 没 有 再 次 看 到 该 条 目 中 的 地 址 ， 则 将 这 个 条 目 删除 ， 如 下 所 示 : 


Linux# bretl setageing br0 1 
Linux# brctl showmacs br0 
port no mac addr is local? ageing timer 


1 00: 
2 00: 
1 00: 
2 100s 
1 00: 


04:5a 
07:e9 
08:74 
14:22 
A72£2 


:9£:9e:80 
2:14:a9:cl 
:93:c823c 
s£421925£ 
:e7:6d:91 


no 0.76 
yes 0.00 
yes 0.00 
no 0.78 
no 0.00 


为 了 方便 演示 ， 我 们 选择 了 一 个 比 平时 数值 低 的 值 作为 有 效 期 。 当 一 个 条 目 因 有 效 期 满 
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而 被 删除 时 ， 后 续 的 帧 将 被 发 送 到 接收 端口 之 外 的 所 有 端口 〈 称 为 洪 泛 )， 并 更 新 过 滤 数 据 库 
中 的 这 个 条 目 。 实 际 上 ， 过 滤 数据 库 的 使 用 和 学 习 有 利于 优化 性 能 ， 如 果 表 是 空 的 ， 网 络 将 
花费 更 多 开销 ， 但 仍 能 履行 职责 。 下 一 步 ， 我 们 将 注意 力 转 移 到 两 个 以 上 的 网 桥 通过 元 余 链 
路 互联 的 情况 。 在 这 种 情况 下 ， 帧 的 洪 泛 可 能 导致 帧 永远 循环 的 洪 泛 灾 难 。 显 然 ， 我 们 需要 
一 种 方法 来 解决 这 个 问题 。 


3.4.1 生成 树 协议 


网 桥 可 能 单独 或 与 其 他 网 桥 共 同 运行 。 当 两 个 以 上 的 网 桥 使 用 (或 交换 机 端口 交叉 连接 ) 
时 ， 由 于 存在 级 联 的 可 能 性 ， 因 此 可 能 形成 很 多 组 的 循环 帧 。 我 们 看 如 图 3-12 所 示 的 网 络 。 

假设 图 3-12 中 的 多 个 交换 机 刚 被 打开 ， 并 且 它 们 的 过 滤 数 据 库 为 空 。 当 站 S 发 送 一 个 
帧 时 ， 交 换 机 了 B 在 端口 7、8 和 9 复制 该 帧 。 这 时 ， 最 初 的 帧 已 被 “放大 ”3 倍 。 这 些 帧 被 
交换 机 A、D AIC 接收 。 交 换 机 和 A 在 端口 2 和 3 生成 该 帧 的 副本 。 交 换 机 D 和 C 分 别 在 端 
口 20、22 和 13、14 生成 更 多 副本 。 当 这 些 
副本 在 交换 机 A、C AID 之 间 双 向 传输 ， 这 
时 放大 倍数 已 增 大 为 6。 当 这 些 帧 到 达 时 ， 
转发 数据 库 开始 出 现 震荡 ， 这 是 由 于 网 桥 反 
复 尝试 查找 通过 哪些 端口 可 到 达 站 S。 显 然 ， 
这 种 情况 是 不 能 容忍 的 。 如 果 人 允许 这 种 情况 
发 生 ， 采 用 这 种 配置 的 网 桥 将 无 法 使 用 。 幸 
运 的 是 ， 有 一 种 协议 可 避免 这 种 情况 ， 这 种 
协议 称 为 生成 树 协议 (STP)。 我 们 将 介绍 图 3-12 一 个 扩展 的 以 太 网 包括 4 台 交 换 机 和 多 





STP 的 一 些 细节 ， 解 释 网 桥 和 交换 机 采用 哪 条 元 余 链 路 。 如 果 在 这 个 网 络 中 采用 简单 
些 方法 抑制 放大 。 在 当前 的 标准 [802.1D- 的 洪 泛 转发 帧 ， 由 于 多 余 的 倍增 流量 (所 
2004] 中 ， 传 统 的 STP 被 快速 生成 树 协 议 谓 的 广播 风暴 )， 将 会 导致 一 场 大 的 灾难 。 
(RSTP) 代替 ,我们 将 在 了 解 传统 STP 的 基 这 种 情况 需要 使 用 STP 
础 上 再 介绍 它 。 

STP 通过 在 每 个 网 桥 禁 用 某 些 端口 来 工 


作 ， 这 样 可 避免 拓扑 环 路 ( 即 两 个 网 桥 之 间 
不 允许 出 现 重 复 路 径 )， 但 如 果 拓 扑 结构 未 分 
区 ， 则 仍 可 到 达 所 有 站 。 在 数学 上 ， 一 个 生 
成 树 是 一 张 图 中 所 有 节点 和 一 些 线 的 集合 ， 
从 任何 节点 到 其 他 节点 (跨越 图 ) 有 一 条 路 径 
或 路 由 ， 但 是 没有 环 路 (这些 线 的 集合 构成 
一 棵 树 )。 一 张 图 可 能 存在 多 个 生成 树 。STP 图 3-13 通过 STP， 链 路 B-A、A-C 和 C-D 在 生 





用 于 找 出 这 张 图 的 其 中 一 个 生成 树 ， 该 图 将 成 树 中 是 活 牙 的 。 端 口 6、.7、1、2 、13、 
网 桥 作 为 节点 并 将 链 路 作为 线 (或 称 “ 边 ”)。 14 和 20 处 于 转发 状态 ; 所 有 其 他 端口 被 
图 3-13 说 明了 这 个 想法 。 阻塞 ( 即 不 转发 )。 这 样 可 以 防止 帧 循环 ， 

在 本 图 中 ， 粗 线 表示 网 络 中 被 STP 选择 避免 广 播 风暴 。 如 果 配置 发 生变 化 或 某 台 
用 于 转发 帧 的 链 路 。 其 他 链 路 没有 被 使 用 ， 交换 机 故障 ， 则 将 阻塞 端口 改变 为 转发 状 


端口 8、9、12、21、22 和 3 被 阻塞 。 通 过 态 ， 并 由 网 桥 计算 一 个 新 生成 树 
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使 用 STP， 早 期 的 各 种 问题 并 没有 出 现 ， 这 些 帧 只 是 作为 另 一 个 抵达 帧 的 副本 而 被 创建 。 这 
里 没有 出 现 放大 的 问题 。 由 于 任意 两 个 站 之 间 只 有 一 条 路 径 ， 因 此 可 以 避免 循环 。 生 成 树 的 
形成 和 维护 由 多 个 网 桥 完 成 ， 在 每 个 网 桥 上 运行 一 个 分 布 式 算 法 。 

用 于 转发 数据 库 时 ，STP 必须 处 理 以 下 情况 ， 例 如 网 桥 启用 和 关闭 、 接 口 卡 更 换 或 
MAC 地 址 改变 。 显 然 ， 这 种 变化 可 能 影响 生成 树 运 行 ， 因 此 STP 必须 适应 这 些 变 化 。 这 种 
适应 通过 交换 一 种 称 为 网 桥 协 议 数据 单元 (BPDU) 的 帧 来 实现 。 这 些 帧 用 来 形成 和 维护 生 
成 树 。 这 棵 树 “ 生 长 ” 自 一 个 网 桥 一 一 该 网 桥 由 其 他 网 桥 选 举 为 “ 根 网 桥 ”。 

如 前 所 述 ， 一 个 网 络 可 能 存在 多 个 生成 树 。 如 何 确 定 哪 棵 生成 树 最 适 于 转发 帧 ， 这 基于 
每 条 链 路 和 根 网 桥 位 置 的 相关 成 本 。 这 个 成 本 是 一 个 与 链 路 速度 成 反比 的 整数 (建议 )。 例 
如 ， 一 条 10Mb/s 链 路 的 成 本 为 100，100Mb/s 和 1000Mb/s 链 路 的 成 本 分 别 为 19 和 4。STP 
计算 到 根 网 桥 的 成 本 最 小 的 路 径 。 如 果 必 须 遍 历 多 条 链 路 ， 相 关 成 本 是 这 些 链 路 成 本 之 和 。 


3.4.1.1 ”端口 状态 和 角色 

为 了 理解 STP 的 基本 操作 ， 我 们 需要 了 解 网 桥 端口 的 状态 机 ， 以 及 BPDU 内 容 。 网 桥 
端口 可 能 有 5 个 状态 : 阻塞 、 侦 听 、 学 习 、 转 发 和 禁用 。 在 图 3-14 所 示 的 状态 转换 图 中 ， 我 
们 可 以 看 出 它们 之 间 的 关系 。 





图 3-14 ”在 正常 的 STP 操作 中 ， 端 口 在 4 个 主要 状态 之 间 转 换 。 在 阻塞 状态 下 ， 帧 不 被 转发 ， 但 一 次 
拓扑 变化 或 超时 可 能 导致 向 侦 听 状态 转换 。 转 发 状态 是 活路 的 交换 机 端口 承载 数据 流量 的 正 
常 状态 。 插 号 中 的 状态 名 用 于 表示 RSTP 相关 的 端口 状态 


在 图 3-14 显示 的 生成 树 中 ， 实 线 箭头 表示 端口 的 正常 转换 ， 小 的 虚线 箭头 表示 由 管理 
配置 引起 的 改变 。 在 初始 化 后 ， 一 个 端口 进入 阻塞 状态 。 在 这 种 状态 下 ， 它 不 进行 地 址 学 
习 、 数 据 转 发 或 BPDU 发 送 ， 但 它 会 监控 接收 的 BPDU， 并 在 它 需 要 被 包含 在 将 到 达 的 根 
网 桥 的 路 径 中 的 情况 下 ， 使 端口 转换 到 侦 听 状态 。 在 侦 听 状态 下 ， 该 端口 允许 发 送 和 接收 
BPDU， 但 不 进行 地 址 学 习 或 数据 转发 。 经 过 一 个 典型 的 15 秒 的 转发 延迟 ， 端 口 进入 学 习 状 
态 。 这 时 ， 它 被 允许 执行 数据 转发 之 外 的 所 有 操作 。 在 进入 转发 状态 并 开始 转发 数据 之 前 ， 
需要 等 待 男 一 个 转发 延迟 。 

相对 于 端口 状态 机 ， 每 个 端口 都 扮演 一 定 的 角色 。 由 于 RSTP ( 见 3.4.1.6 节 ) 的 出 现 ， 
这 个 术语 变 得 越 来 越 重 要 。 端 口 可 能 扮演 根 端口 、 指 定 端口 、 备 用 端口 或 备份 端口 等 角色 。 
根 端口 是 生成 树 中 位 于 指向 根 的 线段 终点 的 那些 端口 。 指 定 端口 是 指 处 于 转发 状态 ， 并 与 根 
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相连 线段 中 路 径 成 本 最 小 的 端口 。 备 用 端口 是 与 根 相连 线段 中 成 本 更 高 的 端口 。 它 们 不 处 于 
转发 状态 。 备 份 端口 是 指 连 接 到 同一 线段 中 作为 同一 网 桥 指 定 端口 使 用 的 端口 。 因 此 ， 备 份 
端口 可 轻易 接管 一 个 失效 的 指定 端口 ， 而 不 影响 生成 树 拓扑 的 其 余部 分 ， 但 是 它 不 能 在 全 部 
网 桥 失效 的 情况 下 提供 一 条 到 根 的 备用 路 径 。 


3.4.1.2 BPDU 结构 
为 了 确定 生成 树 中 的 链 路 ，STP 使 用 图 3-15 所 示 的 BPDU。 


















DOAMOOD o 


Poh 
由 802.1w 
定义 
图 3-15 BPDU 被 放置 在 802 帧 的 有 效 载 荷 区 ， 并 在 网 桥 之 间 交 换 以 建立 生成 树 。 重 要 的 字段 包括 
源 、 根 节点 、 到 根 的 成 本 和 拓扑 变化 提示 。 在 802.1w 和 [802.1D-2004] 中 (包括 快速 STP 或 
RSTP)， 附 加 字段 显示 端口 状态 


图 3-15 所 示 的 格式 适用 于 最 初 的 STP， 以 及 新 的 RSTP ( 见 3.4.1.6 节 )。BPDU 总 被 发 送 
到 组 地 址 01:80:C2:00:00:00〈 链 路 层 组 和 因特网 组 播 寻 址 的 详细 信息 见 第 9 章 )， 并 且 不 会 通过 
一 个 未 修改 的 网 桥 转发 。 在 该 图 中 ，DST、SRC 和 LT (长 度 /类 型 ) 字段 是 携带 BPDU 的 传 
RARR (802.3) 帧 头 部 的 一 部 分 。3 字 节 的 LLC/SNAP 头 部 由 802.1 定义 ， 并 针对 BPDU 被 
105) 设置 为 常数 0x424203。 并 非 所 有 BPDU 都 使 用 LLC/SNAP 封装 ， 但 这 是 一 个 常见 的 选项 。 
协议 ( Prot) 字段 给 出 协议 ID 号 ， 它 被 设置 为 0。 版 本 (Vers) 字段 被 设置 为 0 或 2， 取 
决 于 使 用 STP 还 是 RSTP。 类 型 (Type) 字段 的 分 配 与 版 本 类 似 。 标 志 (Flags) 字段 包含 拓 
扑 变 化 (TC) 和 拓扑 变化 确认 (TCA) 位 ， 它 们 由 最 初 的 802.1d 标准 定义 。 附 加 位 被 定义 为 
建议 (P)、 端 口角 色 (00 为 未 知 ，01 为 备用 ，10 为 根 ，11 为 指定 )、 学 习 (L) HR (F) 和 
协议 (A)。 这 些 都 作为 RSTP 内 容 在 3.4.1.6 节 中 讨论 。 根 ID 字段 给 出 发 送 方 使 用 的 根 网 桥 
标识 符 ， 即 从 网 桥 ID 字段 中 获得 的 MAC 地 址 。 这 些 ID 字段 都 用 一 种 特殊 方式 编码 ， 包 
括 MAC 地 址 之 前 的 一 个 2 字 节 的 优先 级 字段 。 优 先 级 的 值 可 通过 管理 软件 来 设置 ， 以 强制 
要 求生 成 树 采 用 某 个 特定 网 桥 作为 根 (例如 ，Cisco 在 自己 的 Catalyst 交换 机 中 使 用 默认 值 
0x8000 ) 。 
根 路 径 成 本 是 在 根 ID 字段 中 指定 的 计算 出 的 到 达 某 个 网 桥 的 成 本 。PID 字段 是 端口 
标识 符 和 由 发 送 帧 给 出 的 端口 号 ， 它 被 附加 在 一 个 可 配置 的 1 字 节 的 优先 级 字段 (默认 为 
0x80) 之 后 。 消 息 有 效 期 (MsgA) 字段 指出 消息 有 效 期 。 最 大 有 效 期 (MaxA) 字段 指出 超 
时 (默认 为 20 秒 ) 的 最 大 期 限 。 欢 迎 时 间 (Hello Time) 字段 指出 配置 由 的 传输 周期 。 转 发 
延迟 字段 指出 处 于 学 习 和 侦 听 状态 的 时 间 。 所 有 的 有 效 期 和 时 间 字 段 可 在 1/256 秒 内 获得 。 
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消息 有 效 期 字段 不 像 其 他 的 时 间 字 段 那样 是 固定 值 。 当 根 网 桥 发 送 一 个 BPDU 时 ， 它 将 
该 字段 设置 为 0。 网 桥 转发 接收 到 的 不 是 根 端口 的 帧 ， 并 将 消息 有 效 期 字段 加 1。 从 本 质 上 
来 说 ， 该 字段 是 一 个 跳 步 计数 器 ， 用 于 记录 BPDU 经 过 的 网 桥 数量 。 当 一 个 BPDU 被 一 个 
端口 接收 时 ， 其 包含 的 信息 在 内 存 和 STP 算法 参与 者 中 被 保存 至 超时 (超时 发 生 在 ( MaxA- 
MsgA) 时 刻 )。 如 果 超 过 这 个 时 间 ， 根 端口 没有 接收 到 男 一 个 BPDU， 根 网 桥 被 宣布 SET’, 
并 重新 开始 根 网 桥 选举 过 程 。 


3.4.1.3 ”建立 生成 树 

STP 的 第 一 个 工作 是 选举 根 网 桥 。 根 网 桥 是 在 网 络 (或 VLAN) 中 标识 符 最 小 (优先 级 与 
MAC 地 址 结合 ) 的 网 桥 。 当 一 个 网 桥 初始 化 时 ， 它 假设 自己 是 根 网 桥 ， 并 用 自己 的 网 桥 ID 作 
为 根 ID 字段 的 值 发 送 配置 BPDU 消息 ， 如 果 它 检测 到 一 个 ID 更 小 的 网 桥 ， 则 停止 发 送 自己 
的 帧 ， 并 基于 接收 到 的 ID 更 小 的 帧 构造 下 一 步 发 送 的 BPDU。 发 出 根 ID 更 小 的 BPDU 的 端 
口 被 标记 为 根 端口 ( 即 端口 在 到 根 网 桥 的 路 径 上 )。 剩 余 端口 被 设置 为 阻塞 或 转发 状态 。 


3.4.1.4 ”拓扑 变化 

STP 的 另 一 个 重要 工作 是 处 理 拓 扑 变 化 。 虽 然 可 用 前 面 所 述 的 数据 库 有 效 期 机 制 适应 拓扑 
变化 ,但 这 是 一 个 比较 差 的 方法 ， 因 为 有 效 期 计时 器 需要 花费 很 长 时 间 (5 分 钟 ) 删除 错误 条 
目 。 相 反 ，STP 采用 一 种 方法 检测 拓扑 变化 ， 并 快速 通知 它们 所 在 的 网 络 。 在 STP 中 ， 当 一 
个 端口 进入 阻塞 或 转发 状态 时 ， 意 味 着 发 生 拓扑 变化 。 当 网 桥 检测 到 一 个 连接 变化 (例如 一 条 
链 路 故障 )， 它 向 根 端口 之 外 的 端口 发 送 拓 扑 变 化 通知 (TCN) BPDU, 通知 自己 在 树 中 的 父 网 
桥 ， 直 到 根 为 止 。 树 中 通 向 根 的 下 一 个 网 桥 向 发 送 通 知 的 网 桥 确认 TCN BPDU， 并 将 它们 转 
发 到 根 。 当 接收 到 拓扑 变化 通知 时 ， 根 网 桥 在 后 续 的 周期 性 配置 消息 中 设置 TC 位 。 这 种 消息 
被 网 络 中 的 每 个 网 桥 所 转发 ， 并 被 处 于 阻塞 或 转发 状态 的 端口 接收 。 设 置 这 个 位 允许 网 桥 减 小 
转发 延 时 计时 器 的 有 效 期 ， 将 有 效 期 以 秒 代替 推荐 的 5 分 钟 。 这 样 ， 数 据 库 中 已 有 的 错误 条 目 
可 被 快速 清除 和 重新 学 习 ， 同 时 允许 访问 那些 被 误 删除 的 条 目 。 


3.4.1.5 ”例子 

在 Linux 中 ， 网 桥 功 能 默认 禁用 STP。 假 设 在 多 数 情况 下 拓扑 相对 简单 ， 一 台 普 通 计 算 [107] 
机 可 被 用 作 网 桥 。 可 执行 以 下 命令 为 当前 使 用 的 网 桥 启用 STP: 

Linux# brctl stp br0 on 

执行 该 命令 的 结果 如 下 : 


Linux# bretl showstp br0 


br0 


bridge id 8000.0007e914a9c1 

designated root 8000.0007e914a9c1 

root port 0 path cost 0 
max age 19.99 bridge max age 19.99 


hello time 1.99 bridge hello time 1.99 
forward delay 4.99 bridge forward delay 14.99 
ageing time 0.99 
1. 
3. 


n 


hello timer 26 tcn timer 0.00 
topology change timer 37 gc timer 3.26 


flags TOPOLOGY CHANGE TOPOLOGY CHANGE DETECTED 


ee A 


eth0 (0) 

port id - 0000 state forwarding 
designated root 8000.0007e914a9c1 path cost 100 
designated bridge 8000.0007e914a9c1 message age timer 0.00 
designated port 8001 forward delay timer 0.00 
designated cost 0 hold timer 0.26 
flags 
ethl (0) 

port id 0000 state forwarding 
designated root 8000.0007e914a9c1 path cost 19 
designated bridge 8000.0007e914a9c1 message age timer 0.00 
designated port 8002 forward delay timer 0.00 
designated cost 0 hold timer 0.26 
flags 


我 们 看 到 一 个 简单 的 桥接 网 络 的 STP 设置 。 网 桥 设备 bro 保存 网 桥 的 整体 信息 。 这 些 信 
息 包 括 网 桥 ID (8000.0007e914a9cl )， 它 由 图 3-11 中 基于 PC 的 网 桥 (端口 1 ) 的 最 小 MAC 
地 址 生成 。 可 在 几 秒 钟 内 获得 主要 的 配置 参数 (例如 欢迎 时 间 、 拓 扑 变 化 计时 器 等 )。 标 志 
值 表示 最 近 的 拓扑 变化 ， 用 于 获得 最 近 的 网 络 连接 变化 的 实际 情况 。 输 出 的 其 余部 分 描述 每 
个 端口 的 信息 ， 即 eth0( 网 桥 端 口 1 ) Meth! (网 桥 端 口 2 )。 注 意 ，eth0 的 路 径 成 本 大 约 是 
eth] 成 本 的 10 倍 。 这 个 结果 与 eth0 是 一 个 10Mb/s 以 太 网 而 ethl 是 一 个 100Mb/s 全 双 工 网 
络 是 一 致 的 。 

我 们 可 使 用 Wireshark 查看 一 个 BPDU。 在 图 3-16 中 ,我 们 看 到 一 个 52 字 节 的 消息 内 
容 。 消 息 长 度 为 S2 字 节 (由 于 Linux 捕获 功能 会 拆除 填充 ， 因 此 它 小 于 以 太 网 的 64 字 节 
的 最 小 限制 )， 这 个 长 度 是 由 以 太 网 头 部 中 的 长 度 /类 型 字段 加 14 得 到 的 。 目 的 地 址 是 预期 
的 组 地 址 01:80:C2:00:00:00。 有 效 载荷 长 度 是 38 字 节 ， 这 个 值 包含 在 长 度 字 段 中 。SNAP/ 
LLC 字段 包含 常数 0x424243， 并 且 封 装帧 是 一 个 生成 树 (版 本 0 ) 帧 。 其 余 协 议 字 段 表明 
站 00:07:e9:14:a9:cl 认为 自己 是 生成 树 的 根 ， 优 先 级 为 32768( 低 优先 级 )， 并 且 BPDU 从 
端口 2 以 优先 级 0x80 发 送 。 另 外 ， 最 大 有 效 期 是 20 秒 ,欢迎 时 间 是 2 秒 ， 转 发 延迟 是 
15 秒 。 


3.4.1.6 ”快速 生成 树 协 议 (以 前 的 802.1w) 

传统 STP 的 问题 之 一 是 在 拓扑 变化 之 后 ， 只 能 通过 一 定时 间 内 未 接收 到 BPDU 来 检测 。 
如 果 这 个 超时 很 大 ， 收 敛 时 间 ( 沿 着 生成 树 重新 建立 数据 流 的 时 间 ) 可 能 比 预期 大 。IEEE 
802.1w 标准 ([802.1D-2004] 的 一 部 分 ) 改进 了 传统 STP， 它 定义 了 采用 新 名 称 的 快速 生成 树 
协议 (Rapid Spanning Tree Protocol，RSTP)。 在 RSTP 中 ， 对 STP 的 主要 改进 是 监视 每 个 端 
口 的 状态 ， 并 在 故障 时 立即 发 送 一 个 拓扑 变化 通知 。 另 外 ，RSTP 使 用 BPDU 的 标志 字段 中 
的 全 部 6 位 来 支持 网 桥 之 间 的 协议 ， 以 避免 由 计时 器 来 启动 协议 操作 。 它 将 正常 的 STP 端口 
状态 由 5 个 减少 到 3 个 (丢弃 、 学 习 和 转发 ， 由 图 3-14 的 括号 中 的 状态 名 表示 )。RSTP 的 
丢弃 状态 代替 了 传统 STP 的 禁止 、 阻 塞 和 侦 听 状态 。RSTP 创建 了 一 个 称 为 备用 端口 的 新 角 
色 ， 作 用 是 在 根 端口 停止 运行 时 立即 代替 它 。 

由 于 RSTP 只 使 用 一 种 类 型 的 BPDU， 因 此 这 里 没有 专门 的 拓扑 变化 BPDU。 正 如 所 说 
的 那样 ，RSTP 的 BPDU 使 用 版 本 和 类 型 号 2 而 不 是 0。 在 RSTP 中 ,检测 到 一 次 拓扑 变化 
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的 交换 机 会 发 送 一 个 表示 拓扑 变化 的 BPDU， 任 何 接收 到 它 的 交换 机 立即 清除 自己 的 过 滤 数 
据 库 。 这 个 改变 可 显著 影响 协议 的 收敛 时 间 。 这 时 ， 无 须 等 待 拓扑 变化 传递 到 根 网 桥 再 经 过 
转发 延迟 后 返回 ， 而 是 立即 清除 相关 条 目 。 总 之 ， 在 大 多 数 情况 下 ， 收 敛 时 间 可 从 几 十 秒 减 
少 到 几 分 之 一 秒 。 


Emma 
i BBXSSirevaF si 


ST = 0 Port = Ox8002 
ort = Ox8002 


Co 0) 
SAT I sses sser sss» +++: = IG bft: Group address (multicast/broadcast) 
+. = LG bit: Globally unique address (factory default) 


5 vidua 
SSAP: paing Tree BPDU (0x42) 


CR Bit: Command 
BB Control field: u, func=UI (0x03) 
000. 00.. = Command: unnumbered Information (0x00) 
= Frame type: unnumbered frame (COx03) 
f and) Tree 1A ae a cate nme 
Protocol “Identifier: Sp: g 
Protocol version Identifier: spanning Tree (0) 
BPOU Type: Configuration (Ox00) 
@ BPDU flags: 0x00 
Root Identifier: 32768 / 0 / 00:07:e9:14:a9:c1 
Root Bridge Priority: 32768 
Root Bridge System ID Extension: 0 
Root Bridge System ID: 00:07:e9:14:a9:c1 
Root Path Cost: 0 
@ Bridge Identifier: 32768 / 0 / 00:07:e9:14:a9:c1 
Bridge Priority: 32768 
Bridge System ID Extension: 0 
Bridge System ID: 00:07:e9:14:a9:cl 
Port identifier: Ox8002 
Message Age: 0 
Max Age: 20 
Hello Time: 2 
Forward Delay: 15 





图 3-16 Wireshark 显示 一 个 BPDU。 以 太 网 帧 的 目的 地 址 是 
一 个 通过 网 桥 (01:80:c2:00:00:00 ) 的 组 地 址 


RSTP 使 边缘 端口 (只 连接 到 端 站 的 端口 ) 和 正常 的 生成 树 端口 之 间 ， 以 及 点 到 点 链 路 
和 共享 链 路 之 间 都 有 区 别 。 边 缘 端口 和 点 到 点 链 路 上 的 端口 通常 不 会 形成 循环 ， 因 此 允许 它 
们 跳 过 侦 听 和 学 习 状 态 ， 直 接 进 入 转发 状态 。 当 然 ， 如 果 假 设 一 个 边缘 端口 可 能 被 人 侵 ， 例 
如 两 个 端口 交叉 连接 ， 它 们 可 携带 任何 形式 的 BPDU (简单 的 端 站 通常 不 处 理 BPDU)， 这 时 
它们 将 被 重新 分 类 为 生成 树 端口 。 点 到 点 链 路 可 根据 接口 操作 模式 来 识别 。 如 果 这 个 接口 运 
行 在 全 双 工 模式 下 ， 则 这 条 链 路 是 点 到 点 链 路 。 

在 普通 的 STP 中 ，BPDU 通常 由 一 个 通知 网 桥 或 根 网 桥 来 转发 。 在 RSTP 中 ，BPDU 为 
了 “保持 活跃 ”而 由 所 有 网 桥 来 定期 发 送 ， 以 便 确 定 相连 的 邻居 是 否 正 常 运行 。 大 多 数 高 层 
路 由 协议 也 会 这 样 做 。 注 意 ,在 RSTP 中 ， 拓 扑 变 化 没有 像 普 通 STP 那样 包括 边缘 端口 连接 
或 断 开 。 当 检测 到 一 次 拓扑 变化 时 ， 通 知 网 桥 发 送 TC 位 被 设置 的 BPDU， 不 仅 到 根 网 桥 而 
且 到 所 有 网 桥 。 这 样 做 允许 将 拓扑 变化 通知 整个 网 络 ， 并 且 比 传统 STP 更 快速 。 当 一 个 网 桥 
接收 到 这 些 消息 时 ， 它 会 更 新 除 边 缘 端 口 之 外 的 所 有 相关 条 目 。 

RSTP 的 很 多 功能 由 Cisco 和 其 他 公司 开发 ， 他 们 有 时 需要 在 自己 的 产品 中 为 普通 STP 
做 专门 的 扩展 。IEEE 委员 会 将 这 些 扩展 纳入 802.1d 标准 的 更 新 中 ， 该 标准 涵盖 所 有 类 型 的 
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STP， 因 此 扩展 局 域 网 可 在 某 些 网 段 中 运行 传统 STP， 同 时 在 其 他 部 分 中 运行 RSTP (虽然 
RSTP 的 优势 将 丧失 )。RSTP 已 被 扩展 到 VLAN [802.1Q-2005] 中 ， 它 采用 一 种 称 为 多 生成 
树 协议 (MSTP) 的 协议 。 这 个 协议 保留 了 RSTP (和 STP) 报 文 格式 ， 因 此 它 有 可 能 做 到 向 
后 兼容 ， 也 支持 形成 多 个 生成 树 (每 个 VLAN 一 个 生成 树 )。 


3.4.2 802.1ak: 多 注册 协议 


多 注册 协议 (Multiple Registration Protocol, MRP) 提供 了 在 桥接 局 域 网 环境 中 的 站 之 
间 注 册 属 性 的 通用 方法 。[802.1ak-2007] 定义 了 两 个 特殊 的 MRP“ 应 用 程序 ”， 称 为 MVRP 
(用 于 注册 VLAN) 和 MMRP (用 于 注册 组 MAC 地 址 )。MRP 代替 了 早期 的 GARP 框架 ; 
MVRP 和 MMRP 分 别 代替 了 旧 的 GVRP 和 GMRP 协议 。 这 些 协议 最 初 都 由 802.1q 定义 。 

在 使 用 MVRP 时 ， 当 一 个 站 被 配置 为 一 个 VLAN 成 员 时 ， 该 信息 被 传输 到 它 所 连接 的 
交换 机 ， 并 由 该 交换 机 将 站 加 入 VLAN 通知 其 他 交换 机 。 这 允许 交换 机 根据 站 的 VLAN ID 
添加 自己 的 过 滤 表 ， 也 允许 VLAN 拓扑 变化 不 必 通 过 STP 而 重新 计算 现 有 生成 树 。 避 免 重 
新 计算 STP 是 从 GVRP 向 MVRP 迁移 的 原因 之 一 。 

MMRP 是 一 个 站 注册 其 感 兴趣 的 组 MAC 地 址 (组 播 地 址 ) 的 方法 。 这 个 信息 可 能 被 用 
于 交换 机 建立 端口 ， 组 播 流量 必须 通过 该 端口 来 交付 。 如 果 没 有 这 样 的 功能 ， 交 换 机 将 不 得 
不 广播 所 有 的 组 播 流 量 ， 这 样 可 能 导致 不 必要 的 开销 。MMRP 是 一 个 第 2 层 协议 ， 它 与 第 3 
层 协议 IGMP 和 MLD 相似 ， 并 在 很 多 交换 机 中 支持 “ IGMP/MLD 探听 ”能 力 。 我 们 将 在 第 
9 章 讨论 IGMP, MLD 和 探听 。 


3.5 ”无线 局 域 网 一 一 |EEE 802.11 (Wi-Fi) 


目前 ， 无 线 保 真 ( Wi-Fi) 是 访问 Internet 的 最 流行 技术 之 一 ， 其 众所周知 的 IEEE 标准 
名 称 为 802.11， 它 是 一 种 常用 的 无 
线 以 太 网 标准 。Wi-Fi 已 发 展 成 为 一 
种 廉价 、 高 效 、 便 捷 的 方式 ， 为 大 
多 数 应 用 提供 可 接受 的 连通 性 和 性 
能 。Wi-Fi 网 络 很 容易 建立 。 当 前 多 
数 的 便携 式 电脑 和 智能 手机 包含 接 
入 Wi-Fi 基础 设施 的 必要 硬件 。 很 
多 咖啡 馆 、 机 场 、 宾 馆 和 其 他 公共 
设施 提供 了 Wi-Fi “AA”, Wi-Fi Æ 
那些 可 能 难以 提供 其 他 基础 设施 的 
发 展 中 国家 发 展 甚至 更 快 。 图 3-17 
显示 了 IEEE 802.11 网 络 体系 结构 。 


图 3-17 中 的 网 络 包括 多 个 站 图 3-17 一 个 无 线 局 域 网 的 802.11 术语 。 接 人 点 可 采用 一 


基本 服务 集 








(STA)。 在 通常 情况 下 ， 站 和 接 入 种 分 布 式 服务 (一 个 无 线 或 有 线 的 主干 ) 来 连接 ， 
= (AP) 组 成 一 个 操作 子 集 。 一 个 以 形成 一 个 扩展 的 无 线 局 域 网 ( 称 为 一 个 ESS)。 
AP 和 相关 的 站 被 称 为 一 个 基本 服务 站 (包括 AP 和 移动 设备 ) 之 间 的 通信 构成 一 个 基 
集 (BSS)。AP 之 间 通 常 使 用 一 种 有 本 服务 集 。 在 通常 情况 下 ， 每 个 ESS 有 一 个 指定 


线 的 分 布 式 服务 ( 称 为 DS， 基 本 是 的 ESSID， 它 的 功能 是 作为 一 个 网 络 的 名 称 
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“主干 ”) 连接 ， 形 成 一 个 扩展 服务 集 (ESS)。 这 种 方式 通常 被 称 为 基础 设施 模式 。802.11 标 
准 也 提供 了 一 种 Ad hoc (AAA) 模式 。 在 这 种 配置 中 没有 AP 或 DS， 而 是 直接 采用 站 到 
站 (对 等 ) 的 通信 。 在 IEEE 的 术语 中 ， 加 入 一 个 Ad hoc 网 络 的 STA 形成 一 个 独立 基本 服务 
& (IBSS). FA BSS 8 IBSS 的 集合 形成 的 无 线 局 域 网 称 为 服务 集 ， 它 由 一 个 服务 集 标识 符 
(SSID) 来 标识 。 扩 展 服务 集 标识 符 (ESSID) 是 由 SSID 命名 的 一 个 BSS 集合 ， 它 实际 上 是 
一 个 最 长 32 个 字符 的 局 域 网 名 称 。 在 WLAN 第 一 次 建立 时 ,该 名 称 通常 分 配给 AP, 


3.5.1 802.11 帧 


802.11 网 络 有 一 个 常见 的 总 体 框架 ,但 包括 多 种 类 型 的 帧 格式 。 每 种 类 型 的 帧 不 一 定 包 
含 所 有 字段 。 图 3-18 显示 了 常见 帧 格式 和 (最 大 尺寸 的 ) 数据 帧 。 
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图 3-18 802.11 基本 数据 帧 格式 ( 见 [802.11n-2009]). MPDU 格式 类 似 于 以 太 网 ， 但 取决 于 接 人 点 之 
间 使 用 的 DS 类 型 : 帧 是 发 送 到 DS 还 是 来 自 它 ， 以 及 帧 是 否 被 聚合 。QoS 控制 字段 用 于 特殊 
功能 ，HT 控制 字段 用 于 控制 802.11n 的 “高 吞吐 量 ” 功 能 


图 3-18 所 示 的 帧 包括 一 个 用 于 同步 的 前 导 码 ， 它 取决 于 正在 使 用 的 802.11 协议 类 型 。 
接 下 来 ， 物 理 层 会 聚 程序 ( PLCP) 头 部 以 独立 于 物理 层 的 方式 提供 特定 的 物理 层 信息 。 帧 
的 PLCP 部 分 的 传输 速率 通常 比 其 余部 分 低 。 这 样 做 有 两 个 目的 : 提高 正确 交付 的 概率 ( 较 
低速 度 通常 具有 更 好 的 容错 性 能 )， 提 供 对 传统 设备 的 兼容 性 和 防止 慢 速 操作 的 干扰 。 帧 的 
MAC PDU (MPDU) 与 以 太 网 相似 ,但 是 有 一 些 额 外 的 字段 。 

MPDU 以 帧 控制 字 开 始 ， 其 中 包括 2 位 的 类 型 字段 ， 用 于 识别 该 帧 的 类 型 。 这 里 有 三 种 
类 型 的 帧 : 管理 帧 、 控 制 帧 和 数据 帧 。 每 种 类 型 有 不 同 的 子 类 型 。[802.1ln-2009， 表 7-1] 给 
出 了 有 关 类 型 和 子 类 型 的 完整 列表 。 剩 余 字 段 由 帧 类 型 (如 果 有 的 话 ) 来 决定 ， 后 面 将 单独 
讨论 。 
3.5.1.1 管理 帧 

管理 帧 用 于 创建 、 维 持 、 终 止 站 和 接 人 点 之 间 的 连接 。 它 们 也 被 用 于 确定 是 否 采 用 加 
密 ， 传 输 网 络 名 称 ( SSID 或 ESSID )， 支 持 哪 种 传输 速率 ， 以 及 采用 的 时 间 数 据 库 等 。 当 一 
个 Wi-Fi 接口 “扫描 ”临近 的 接 和 人 点 时 ， 这 些 帧 被 用 于 提供 必要 的 信息 。 

扫描 是 一 个 站 发 现 可 用 的 网 络 及 相关 配置 信息 的 过 程 。 这 涉及 每 个 可 用 频率 和 流量 的 侦 
听 过 程 ， 以 确定 可 用 的 接 入 点 。 一 个 站 可 以 主动 探测 网 络 ， 在 扫描 时 传输 一 个 特殊 的 管理 帧 
(“探测 请 求 ”)。 这 些 探 测 请 求 有 一 定 的 限制 ， 以 保证 802.11 流量 不 在 非 802.11 (例如 医疗 
服务 ) 频率 上 传输 。 下 面 是 在 Linux 系统 中 手工 启动 扫描 的 例子 : 
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Linux# iwlist wlan0 scan 
wlan0 Scan completed : 
Cell 01 - Address: 00:02:6F:20:B5:84 
ESSID: "Grizzly-5354-Aries-802.11b/g" 
Mode: Master 
Channel:4 
Frequency:2.427 GHz (Channel 4) 
Quality=5/100 Signal level=47/100 
Encryption key:on 
IE: WPA Version 1 
Group Cipher : TKIP 
Pairwise Ciphers (2) : CCMP TKIP 
Authentication Suites (1) : PSK 
Bit Rates:1 Mb/s; 2 Mb/s; 5.5 Mb/s; 11 Mb/s; 
6 Mb/s; 12 Mb/s; 24 Mb/s; 36 Mb/s; 9 Mb/s; 
18 Mb/s; 48 Mb/s; 54 Mb/s 
Extra:tsf=0000009d832f£f037 


这 里 ， 我 们 看 到 在 无 线 接 口 wlan0 上 手工 启动 扫描 的 结果 。 一 个 MAC 地 址 为 00:02:6F: 
20:B5:84 的 AP 作为 主角 ( 即 在 基础 设施 模式 中 作为 AP) 工作 。 它 在 信道 4 (2.427GHz) 上 
广播 ESSID“Grizzly-5354-Aries-802.11b/g”( 更 多 细节 见 3.5.4 节 讨 论 信道 和 频率 时 对 信道 选 
择 的 描述 )。 信 号 质量 和 强度 决定 执行 扫描 的 站 从 AP 接收 信号 的 好 坏 ， 但 相应 值 的 含义 可 能 
因 设 备 生产 商 而 不 同 。WPA 加 密 被 用 于 这 种 链 路 〈 见 3.5.5 节 )， 传 输 速率 从 1Mb/s 到 54Mb/ 
s 不 等 。tsf (时 间 、 同 步 、 功 能 ) 的 值 表示 AP 的 时 间 概 念 ， 它 被 用 于 需要 同步 的 各 种 功能 ， 
例如 省 电 模 式 ( 见 3.5.2 节 )。 

当 一 个 AP 广播 它 的 SSID 时 ,任何 站 可 尝试 与 AP 建立 连接 。 当 一 个 连接 建立 时 ， 大 
多 数 Wi-Fi 网 络 会 提供 必要 的 配置 信息 ， 以 便 为 站 提供 Internet 接 入 ( 见 第 6 章 )。 但 是 ，AP 
的 运营 商 可 能 希望 控制 使 用 网 络 的 站 。 有 些 运 营 商 故意 使 连接 变 得 更 困难 ，AP 不 广播 其 
SSID 被 作为 一 项 安全 措施 。 这 种 方法 提供 了 有 限 的 安全 性 ， 这 是 由 于 SSID 可 以 被 猜测 。 链 
路 加 密 和 密码 可 提供 更 可 靠 的 安全 性 ， 我 们 将 在 3.5.5 节 讨 论 。 


3.5.1.2 ”控制 帧 : RTS/CTS Ñ ACK 

控制 帧 与 帧 确认 被 用 于 一 种 流量 控制 方式 。 流 量 控制 有 助 于 接收 方 使 一 个 过 快 的 发 送 
方 降低 发 送 速度 。 帧 确认 有 助 于 发 送 方 知道 哪些 帧 已 正确 接收 。 这 些 概念 也 适用 于 传输 层 的 
TCP 协议 〈 见 第 15 章 )。802.11 网 络 支 持 可 选 的 请 求 发 送 / 明确 发 送 (RTS/CTS)， 通 过 放 缓 传 
输 来 进行 流量 控制 。 当 RTS/CTS 启用 时 ， 一 个 站 在 发 送 数据 帧 之 前 发 送 一 个 RTS 帧 ， 当 接 
收 方 愿意 接收 额外 的 流量 时 ， 它 会 响应 一 个 CTS 帧 。 在 RTS/CTS 交换 之 后 ， 这 个 站 开启 一 
个 时 间 窗 口 (在 CTS 帧 中 标识 )， 用 于 向 确认 接收 的 站 发 送 数据 帧 。 这 种 协同 传输 方法 在 无 
线 网 络 中 是 常见 的 ， 模 拟 流量 控制 信号 多 年 前 已 被 用 于 有 线 的 串 行 线路 〈 有 时 称 为 硬件 流量 
控制 )。 

RTS/CTS 交换 有 助 于 避免 隐藏 终端 问题 ， 通 过 在 允许 发 送 时 对 每 个 站 加 以 指导 ， 以 便 
发 现 对 方 站 同时 进行 的 传输 。 由 于 RTS 和 CTS 帧 比较 得， 因此 它们 不 会 长 期 使 用 信道 。 如 
果 一 个 分 组 的 大 小 足够 大 ，AP 通常 为 每 个 分 组 启动 一 次 RTS/CTS 交换 。 在 通常 情况 下 ，AP 
提供 一 个 称 为 分 组 大 小 阅 值 (或 类 似 ) 的 配置 选项 。 超 过 阔 值 的 帧 将 会 导致 一 个 RTS 帧 优先 
于 数据 帧 发 送 。 如 果 需 要 执行 RTS/CTS 交换 ， 大 多 数 设备 生产 商 设置 的 默认 值 为 500 字 节 。 
在 Linux 中 ，RTS/CTS 阅 值 可 通过 以 下 方式 设置 : 


Linux# iwconfig wlan0 rts 250 
wlan0 IEEE 802.11g ESSID:"Grizzly-5354-Aries-802.11b/g" 


Mode:Managed 

Frequency:2.427 GH 

Access Point: 00:02:6F:20:B5:84 

Bit Rate=24 Mb/s Tx-Power=0 dBm 

Retry min limit:7 RTS thr=250 B Fragment thr=2346 B 
Encryption key:xxxx- ... -xxxx [3] 

Link Quality=100/100 Signal level=46/100 

Rx invalid nwid:0 Rx invalid crypt:0 Rx invalid frag:0 
Tx excessive retries:0 Invalid misc:0 Missed beacon:0 


iwconfig 命令 可 用 于 设置 多 种 变量 ， 包 括 RTS 和 分 片 阔 值 ( 见 3.5.1.3 节 )。 它 也 可 用 于 
确定 统计 数据 ， 例 如 错误 的 网 络 ID (ESSID ) 或 加 密 密 钥 而 导致 的 帧 出 错 数 量 。 它 也 可 用 于 
给 出 过 多 的 重 试 次 数 ( 即 重 传 次 数 )， 这 是 一 个 用 于 衡量 链 路 可 靠 性 的 粗略 指标 ， 在 无 线 网 
络 中 常用 于 指导 路 由 决策 [ETX]。 在 覆盖 范围 有 限 的 WLAN 中， 隐藏 终端 问题 通常 很 少 发 
生 ， 可 将 站 的 RTS 阅 值 设置 为 很 大 (1500 REK) 来 禁用 RTS/CTS。 这 可 避免 每 个 分 组 执 
43 RTS/CTS 交换 带 来 的 开销 。 

在 有 线 的 以 太 网 中 ， 冲 突 较 少 意 味 着 正确 接收 帧 的 概率 较 高 。 在 无 线 网 络 中 ， 更 多 的 因 
素 导 致 帧 交付 可 能 出 错 ， 例 如 信和 号 不 够 强 或 受到 干扰 。 为 了 帮助 解决 这 些 潜在 问题 ，802.11 
采用 一 种 重 传 /确认 (ACK) 方法 来 扩展 802.3 重 传 机 制 。 确 认 是 对 预期 在 一 定时 间 内 接收 
的 一 个 单 播 帧 (802.11a/b/g) 或 一 组 帧 ( 802.11n 或 带 “ 块 确认 ”的 802.11e) 的 响应 。 组 播 
或 广播 帧 没有 相关 的 确认 ， 以 避免 出 现 “ACK 爆炸 ”问题 ( 见 第 9 章 )。 在 指定 时 间 内 没有 
接收 到 对 应 的 ACK 会 导致 帧 的 重 传 。 

重 传 可 能 在 网 络 中 形成 重复 的 帧 。 当 任何 帧 是 某 个 帧 的 一 次 重 传 时 ， 帧 控制 字 中 的 重 试 
(Retry) 位 需要 设置 为 相应 的 值 。 接 收 站 可 通过 它 删 除 重 复 的 帧 。 每 个 站 需要 保持 一 个 小 的 
缓存 条 目 ， 以 说 明 最 近 查 看 的 地 址 和 序列 号 /分 片 号 。 当 一 个 接收 帧 与 一 个 条 目 匹配 时 ， 则 
丢弃 该 帧 。 

发 送 一 个 帧 和 接收 一 个 ACK 所 需 时 间 与 链 路 距离 和 时 阶 (802.11 MAC 协议 的 一 个 基 
本 时 间 单 位 ， 见 3.5.3 节 ) 相关 。 在 大 多 数 系统 中 ， 可 配置 等 待 的 ACK E (ARR), R 
们 可 采用 不 同方 法 完成 配置 。 在 大 多 数 情况 下 ， 例 如 在 家 庭 或 办 公 室 中 使 用 ， 默 认 值 是 足够 
的 。 在 长 距离 的 Wi-Fi 中 ， 这 些 值 可 能 需要 调整 〈 例 如 见 [MWLD])。 


3.5.1.3 ”数据 帧 、 分 片 和 聚合 

在 一 个 繁忙 的 网 络 中 看 到 的 帧 大 多 数 是 数据 帧 ， 它 们 如 大 家 所 期 望 的 那样 携带 数据 。 在 
通常 情况 下 ，802.11 帧 和 链 路 层 (LLC) 帧 之 间 存 在 一 对 一 关系 ， 它 们 保证 更 高 层 协议 〈 例 
WIP) 是 可 用 的 。 但 是 ，802.11 支持 帧 分 片 ， 可 将 一 个 帧 分 为 多 个 分 片 。 根 据 802.11n 的 规 
定 ， 它 也 支持 帧 聚合 ， 可 将 多 个 帧 合并 发 送 以 减少 开销 。 

当 使 用 帧 分 片 时 ， 每 个 分 片 有 自己 的 MAC 头 部 和 尾部 的 CRC， 并 且 它 们 独立 于 其 他 
分 片 处 理 。 例 如 ， 到 不 同 目的 地 的 分 片 可 以 交错 。 当 信道 有 明显 的 干扰 时 ， 分 片 有 助 于 提高 
性 能 。 除 非 使 用 块 确认 功能 ， 和 否则 每 个 分 片 将 被 单独 发 送 ， 并 由 接收 方 为 每 个 分 片 产生 一 个 
ACK。 由 于 分 片 小 于 全 尺寸 的 帧 ， 如 果 需 要 启动 一 次 重 传 ， 则 只 需要 重 传 少量 数据 。 

分 片 仅 用 于 目的 地 址 为 单 播 ( 非 广播 或 组 播 ) 的 帧 。 为 了 具备 这 种 能 力 ， 顺 序 控制 字段 
包含 一 个 分 片 号 (4 位 ) 和 一 个 序列 号 (12 位 )。 如 果 一 个 帧 经 过 分 片 ， 所 有 分 片 包含 相同 
的 序列 号 值 ， 而 每 个 相 邻 的 分 片 的 分 片 号 之 差 为 1。 由 于 分 片 号 字段 长 度 为 4 位 ， 同 一 帧 最 
多 可 能 有 15 个 分 片 。 帧 控制 字 中 的 更 多 标志 字段 表示 更 多 分 片 还 没有 到 达 。 最 后 一 个 分 片 
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将 这 个 位 设置 为 0。 接收 方 将 接收 到 的 同一 序列 号 的 分 片 根 据 分 片 号 重组 成 原始 帧 。 当 所 有 
包含 同一 序列 号 的 分 片 被 接收 ， 并 且 最 后 一 个 分 片 将 更 多 标志 字段 设 为 0 时 ， 这 个 帧 被 重组 
并 交 给 更 高 层 协议 来 处 理 。 

分 片 并 不 常 使 用 ， 因 为 它 需 要 经 过 调整 。 如 果 不 调整 就 使 用 ， 可 能 导致 性 能 下 降 。 当 帧 
大 小 更 小 的 情况 下 ， 出 现 位 差错 的 概率 (参见 下 一 段 ) 更 小 。 分 片 大 小 通常 可 设 为 256 字 节 
至 2048 字 节 ， 并 作为 一 个 净值 (只 有 那些 超过 阔 值 的 帧 才 被 分 片 )。 很 多 AP 通常 设置 更 高 
AY BA (例如 Linksys 品牌 AP 的 2437 字 节 )， 这 样 就 会 默认 不 使 用 分 片 。 

分 片 有 用 的 原因 在 于 其 出 错 的 概率 。 如 果 误 码 率 (Bit Error Rate, BER) AP, 1 位 数据 
成 功 交付 的 概率 为 (1 - P),N 位 成 功 交付 的 概率 为 (1 -Po BN 的 增长 ， 这 个 值 逐 渐 减 
小 。 因 此 ， 如 果 我 们 减 小 一 个 帧 的 大 小 ， 理 论 上 可 改善 错误 交付 的 概率 。 当 然 ， 如 果 我 们 将 
一 个 W 位 大 小 的 帧 分 成 玉 个 分 片 ， 我 们 可 发 送 至 少 [MK | 个 分 片 。 我 们 给 出 一 个 具体 的 例 
子 ， 假 设 要 发 送 一 个 1500 字 节 (12 000 位) Kis WRR P = 10”( 一 个 相对 较 高 的 误 码 
率 )， 不 分 片 时 的 成 功 交付 概率 为 (1-10-92 °=0.301, AREA 30% 机 会 将 这 个 帧 成 功 交 
付 ， 即 平均 发 送 三 或 四 次 可 使 它 成 功 接收 。 

如 果 我 们 对 同样 的 例子 使 用 分 片 ， 并 将 分 片 阅 值 设置 为 500， 这 时 将 产生 3 个 4000 位 
的 分 片 。 每 个 分 片 成 功 交付 的 概率 为 (1-10“)*””w = 0.670。 因 此 ， 每 个 分 片约 有 67% 的 机 会 
成 功 交 付 。 当 然 ， 我 们 必须 在 交付 成 功 后 重组 该 帧 。3 个 分 片 、2 个 分 片 、1 个 分 片 与 0 个 分 
片 成 功 交 付 的 概率 分 别 为 (0.67 = 0.30, 3(0.67)°(0.33) = 0.44、3(0.67)(0.33)= 0 .22, (0.33)'= 
0.04。 因 此 ， 虽 然 所 有 分 片 未 重 传 而 被 成 功 交 付 的 概率 与 未 分 片 被 成 功 交 付 的 概率 相同 ， 但 
两 个 或 三 个 分 片 被 成 功 交付 的 机 会 相对 较 大 。 如 果 发 生 这 种 情况 ， 顶 多 是 一 个 分 片 需要 重 
传 ， 这 比 发 送 1500 字 节 的 未 分 片 帧 显然 节省 时 间 (大 约 三 分 之 一 )。 当 然 ， 每 个 分 片 需要 花 
费 一 些 开销 ， 如 果 误 码 率 实际 为 0， 分 片 只 会 因 创建 更 多 帧 而 降低 性 能 。 

802.11n 提供 的 增强 功能 之 一 是 支持 两 种 形式 的 帧 聚合 。 一 种 形式 称 为 聚合 的 MAC 服 
务 数据 单元 (A-MSDU)， 它 可 将 多 个 完整 的 802.3 (以 太 网 ) 帧 聚合 在 一 个 802.11 WiP. 5 
一 种 形式 称 为 聚合 的 MAC 协议 数据 单元 (A-MPDU)， 它 可 将 多 个 具有 相同 的 源 、 目 的 和 
QoS 的 MPDU 聚合 为 短 帧 。 图 3-19 描述 了 两 种 类 型 的 聚合 。 

对 于 一 次 单一 的 聚合 ，A-MSDU 方法 在 技术 上 更 有 效率 。 每 个 802.3 头 部 通常 为 14 字 节 ， 
相对 36 字 节 的 802.11 MAC 头 部 更 短 。 因 此 ， 仅 一 个 802.11 MAC 头 部 对 应 于 多 个 802.3 帧 ， 
每 聚合 一 个 帧 最 多 可 节约 22 字 节 。 一 个 A-MSDU 可 能 高 达 7935 字 节 ， 可 容纳 100 多 个 小 
(例如 50 字 节 ) 的 分 组 ， 但 只 能 容纳 少数 (5 个 ) 较 大 (1500 字 节 ) 的 数据 分 组 。A-MSDU 仅 
对 应 一 个 FCS。 更 大 的 A-MSDU 帧 会 增 大 交付 出 错 的 概率 ， 由 于 整个 聚合 只 是 针对 一 个 FCS， 
因此 在 出 错时 将 不 得 不 重 传 整个 帧 。 

A-MPDU 聚合 是 另 一 种 形式 的 聚合 ， 多 个 (最 多 64 个 ) 802.11 帧 可 聚合 起 来 ， 每 个 帧 
有 自己 的 802.11 MAC 头 部 和 FCS， 每 个 帧 最 多 4095 字 节 。A-MPDU 可 携带 最 多 64KB 的 
数据 ， 足 够 包含 1000 多 个 小 的 分 组 和 大 约 40 个 较 大 (1.5KB) 的 分 组 。 由 于 每 个 子 帧 都 携 
带 自己 的 FCS， 因 此 可 有 选择 地 重 传 那些 出 错 的 子 帧 。 这 使 得 802.11n (最 初 在 802.11e) 中 
的 块 确认 功能 成 为 可 能 ， 它 是 一 种 扩展 的 确认 形式 ， 为 发 送 方 提供 哪个 A-MPDU 子 帧 交付 
成 功 的 反馈 信息 。 这 种 功能 在 目的 上 类 似 , 但 在 细节 上 不 同 ,我 们 将 在 TCP ( 见 第 14 章 ) 中 
介绍 选择 确认 。 因 此 ，A-MSDTU 提供 的 聚合 类 型 在 无 差错 网 络 中 传输 大 量 小 的 分 组 时 可 能 更 
有 效率 ， 但 在 实际 运行 中 可 能 不 如 A-MPDU 聚合 好 [S08]。 
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图 3-19 802.1ln 中 的 帧 聚合 包括 A-MSDU 和 A-MPDU。A-MSDU 使 用 一 个 FCS 聚合 多 个 帧 。 
A-MPDU 在 聚合 的 每 个 802.11 帧 之 间 使 用 一 个 4 字 节 的 分 隔 符 。 每 个 A-MPDU 子 帧 拥有 自 
己 的 FCS， 并 可 以 分 别 使 用 ACK 确认 ， 以 及 在 必要 时 重 传 


3.5.2 ”省 电 模 式 和 时 间 同 步 功能 


802.11 规范 提供 一 种 使 站 进入 有 限 电源 状态 的 方式 ， 称 为 省 电 模式 (PSM)。PSM 的 设 
计 目 标 是 为 了 节省 电源 ，STA 可 在 某 个 时 间 关 闭 无 线 电 收发 器 电路 。 在 不 使 用 PSM 时 ， 收 
发 器 电路 将 始终 运行 ， 并 消耗 能 量 。 在 使 用 PSM 时 ，STA 的 输出 帧 在 帧 控制 字 中 设置 1 位 。 
当 AP 发 现 某 些 帧 的 该 位 被 设置 时 ， 它 会 缓冲 该 帧 直到 该 站 需要 时 为 止 。AP 发 送信 标 帧 (一 
种 管理 帧 ) 提供 不 同 信息 ， 例 如 SSID 、 信 道 和 认证 信息 。 当 某 个 站 使 用 PSM 时 ，AP 可 向 
该 站 提示 存在 缓冲 的 帧 ， 只 需 在 发 送 帧 的 帧 控制 字 中 设置 一 个 标识 。 在 某 个 站 执行 PSM 后 ， 
它 会 一 直 保持 这 样 ， 直 到 接收 到 下 一 个 AP 信 标 帧 ， 这 时 它 将 苏醒 过 来 ， 并 确定 AP PRA 
有 为 它 缓存 的 帧 。 

我 们 应 了 解 和 关注 PSM 的 使 用 。 虽 然 它 可 能 延长 电池 寿命 ,但 是 在 大 多 数 无 线 设 备 中 ， 
NIC 不 是 唯一 可 节约 电源 的 模块 。 系 统 其 他 部 分 (例如 屏幕 和 硬盘 驱动 器 ) 也 是 电源 的 主要 
消耗 者 ， 因 此 总 的 电池 寿命 可 能 不 会 延长 太 多 。 另 外 ，PSM 可 能 显著 影响 在 帧 传输 之 间 空 闲 
期 间 的 吞吐 量 ， 时 间 被 过 多 花费 在 模式 切换 上 [SHK07]。 

在 正确 的 时 间 ( 即 一 个 AP 打算 发 送 一 个 信 标 帧 时 ) 唤醒 STA 检查 等 候 帧 的 能 力 ， 取 决 
于 这 个 AP 和 它 所 服务 的 站 对 时 间 的 感知 。Wi-Fi 采用 时 间 同 步 功 能 (TSF)。 每 个 站 保持 一 
个 64 位 计数 器 的 参考 时 间 〈 微 秒 )， 这 个 时 间 与 网 络 中 的 其 他 站 保持 同步 。 同 步 保持 在 4 ws 
加 PHY (速率 为 1Mb/s 或 以 上 ) 最 大 传播 延迟 之 内 。 这 是 通过 多 个 站 接收 一 个 TSF 更 新 (为 
一 个 站 发 送 的 64 位 计数 器 副本 )， 并 检查 其 中 的 值 是 否 比 自己 的 值 更 大 来 实现 。 如 果 是 ， 接 
收 站 将 自己 的 时 间 更 新 为 更 大 的 值 。 这 种 方法 可 确保 时 钟 总 是 向 前 走 ， 但 它 也 会 带 来 一 些 问 
题 ， 如 果 不 同 站 的 时 钟 速率 稍 有 差异 ， 较 慢 的 站 就 会 被 最 快 的 站 的 时 钟 所 同步 。 

通过 将 802.1le (QoS) 功能 纳入 802.11 中 ，802.11 的 PSM 扩展 为 提供 定期 批 处 理 缓冲 
帧 功能 。 这 个 频率 用 信 标 帧 的 数量 来 表示 。 这 个 功能 被 称 为 自动 省 电 交 付 模 式 (APSD)， 它 
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使 用 Qos 控制 字 中 的 一 些 子 字段 。APSD 对 电源 有 限 的 设备 可 能 非常 有 用 ， 因 为 它们 不 像 传 
统 802.11 PSM 那样 ， 并 不 需要 在 每 个 信 标 间隔 都 被 唤醒 。 相 反 ， 它 们 可 选择 在 自己 所 选 的 
较 长 时 间 内 关闭 无 线 电 收发 器 电路 。802.1ln 也 扩展 了 PSM 基本 功能 ， 人 允许 一 个 STA 装备 
的 多 个 射频 电路 ( 见 3.5.4.2 节 MIMO) 共同 工作 ， 关 闭 所 有 而 不 是 其 中 一 个 电路 ， 直 到 准 
备 好 一 个 帧 为 止 。 这 被 称 为 空间 复 用 省 电 模式 。 这 个 规范 还 包括 称 为 省 电 多 重 轮 询 的 增强 型 
APSD， 它 提供 同时 双向 〈 例 如 ， 到 达 AP 和 来 自 AP) 传输 帧 的 方法 。 


3.5.3 802.11 介质 访问 控制 


与 有 线 网 络 (例如 802.3 局 域 网 ) 相 比 ， 在 无 线 网 络 中 检测 “冲突 ”具有 更 大 挑战 性 。 
实际 上 ， 介 质 是 相对 单一 的 ， 无 论 是 集中 方式 还 是 分 布 方式 ， 都 需要 协同 传输 ， 避 免 多 个 站 
同时 发 送 。802.11 标准 采用 三 种 方法 控制 共享 的 无 线 介 质 ， 它 们 分 别称 为 点 协调 功能 (PCF), 
分 布 式 协 调 功能 (DCF) 和 混合 协调 功能 (HCF)。HCF 被 纳入 802.11 规范 [802.11-2007], 
在 802.1le 中 增加 支持 QoS， 它 也 被 用 于 802.11n。 某 些 类 型 的 站 或 AP 强制 实现 DCF， 也 
可 选择 实现 PCF, 但 PCF 使 用 得 并 不 广泛 (因此 我 们 不 详细 讨论 )。 相 对 较 新 的 支持 QoS 的 
Wi-Fi 设备 通常 会 实现 HCF， 例 如 802.11n 的 AP 和 更 早 的 802.11e 的 AP。 现 在 ,我 们 将 注 
意 力 转移 到 DCF 上 ， 并 在 下 面 的 QoS 内 容 中 描述 HCF。 

DCF 是 一 种 CSMA/CA 类 型 ， 是 基于 竞争 的 介质 访问 方法 。 它 可 用 于 基础 设施 和 Ad 
hoc 网 络 。 通 过 CSMA/VCA ， 一 个 站 可 查看 介质 是 否 空 朋 ， 如 果 空 闲 ， 它 将 有 机 会 传输 。 如 
果 不 空闲 ， 它 在 一 段 随机 的 时 间 内 避免 发 送 ， 直 到 它 再 次 查看 介质 是 否 空闲 为 止 。 这 个 行为 
与 有 线 局 域 网 中 使 用 的 CSMA/CD 检测 方法 相似 。802.11 信道 仲裁 是 对 CSMA/CA 的 改进 ， 
提供 优先 访问 某 些 站 或 帧 的 功能 。 

802.11 载波 侦 听 能 以 物理 和 虚拟 方式 实现 。 一 个 站 在 准备 发 送 时 ， 通 常 需要 等 待 一 段 
时 间 ( 称 为 分 布 式 帧 间 间 隔 (DIFS))， 以 允许 更 高 优先 级 的 站 访问 信道 。 如 果 信 道 在 DIFS 
期 间 变 得 繁忙 ， 该 站 再 次 开始 一 个 等 待 时 间 。 当 介质 出 现 空闲 时 ， 和 希望 发 送 数据 的 站 将 局 
动 3.5.3.3 节 所 述 的 冲突 避免 / 退 避 过 程 。 这 个 过 程 在 一 次 成 功 (失败 ) 的 传输 后 ， 通 过 一 个 
ACK 知道 数据 被 接收 (或 没有 接收 ) 后 启动 。 在 传输 不 成 功 的 情况 下 ， 经 过 不 同时 间 ( 称 为 
扩展 帧 间 间 隔 ( EIFS)) 启动 退 避 过 程 。 现 在 ， 我 们 将 详细 地 讨论 DCF 实现 ， 包 括 虚 拟 和 物 
理 载波 侦 听 机 制 。 


3.5.3.1 ”虚拟 载波 侦 听 、RTS/CTS 和 网 络 分 配 向 量 

在 802.11 MAC 协议 中 ， 虚 拟 载波 侦 听 机 制 会 检查 每 个 MAC 帧 中 的 持续 时 间 字 段 。 这 
通过 站 的 侦 听 而 非 引导 流量 来 实现 。RTS ACTS 帧 中 都 有 一 个 持续 时 间 字 段 ， 它 们 像 普 通 
帧 那样 在 传输 之 前 可 选择 是 否 交 换 ， 并 估计 介质 将 处 于 繁忙 状态 的 时 间 。 

发 送 方 基于 帧 长 度 、 传 输 速率 和 PHY 特性 (例如 速率 等 ) 设置 持续 时 间 字 段 。 每 个 站 保 
持 一 个 称 为 网 络 分 配 向 量 (NAV) 的 本 地 计数 器 ， 它 被 用 于 估计 介质 传输 当前 帧 所 需 的 时 间 ， 
以 及 尝试 下 一 次 传输 之 前 需 等 待 的 时 间 。 当 一 个 站 侦 听 到 一 个 持续 时 间 大 于 自己 的 NAV 时 ， 
它 将 自己 的 NAV 更 新 为 这 个 值 。 由 于 RTS 和 CTS 帧 中 都 有 持续 时 间 字 段 ， 如 果 使 用 NAYV， 
在 其 范围 内 的 任何 站 (无 论 是 发 送 方 还 是 接收 方 ) 都 能 看 到 持续 时 间 字 段 值 。 NAV 采用 单位 
时 间 来 维护 ， 并 基于 本 地 时 钟 递 减 。 当 本 地 NAV 不 为 0 时 ,介质 被 认为 是 繁忙 的 。 在 接收 
到 一 个 ACK Ja, AHL NAV 将 复位 为 0。 
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3.5.3.2 ”物理 载波 侦 听 (CCA) 

每 个 802.11 PHY 规范 (例如 ， 对 于 不 同 的 频率 和 无 线 电 技术 ) 需 提供 一 种 评估 信道 是 否 
空 闪 的 功能 ， 它 基于 能 量 和 波形 识别 (通常 是 一 个 完好 的 PLCP)。 这 个 功能 称 为 空闲 信道 评 
估 (Clear Channel Assessment，CCA)， 它 的 实现 依赖 于 PHY。CCA 功能 是 针对 802.11 MAC 
的 物理 载波 侦 听 功能 ， 用 于 了 解 介质 当前 是 和 否 繁 忙 。 它 通常 与 NAV 结合 使 用 ， 以 确定 一 个 
站 在 传输 之 前 是 否 需要 推迟 (等待 )。 


3.5.3.3 DCF 冲突 避免 / 退 避 过 程 

在 确定 某 个 信道 可 能 空闲 时 (已 到 达 NAV 持续 时 间 ， 并且 CCA 没有 提示 信道 繁忙 )， 
一 个 站 在 传输 之 前 需 推 迟 访问 该 信道 。 由 于 很 多 站 可 能 在 等 待 信道 变 空闲 ， 每 个 站 在 发 送 之 
前 需 计算 和 等 待 一 个 退 避 时 间 。 退 避 时 间 等 于 一 个 随机 数 和 时 隙 的 乘积 (除非 该 站 已 有 一 个 
非 零 的 退 避 时 间 尝 试 传输 ， 在 这 种 情况 下 无 须 重新 计算 )。 时 隙 依赖 于 PHY， 通常 是 几 十 微 
秒 。 随 机 数 是 一 个 在 区 间 [0, CW] 中 均匀 分 布 的 数值 ， 竞 争 窗 口 (CW) 是 一 个 整数 ， 其 中 
包含 许多 等 待 时 除 ， 且 aCWmin < CW < aCWmax (该 限制 由 PHY 定义)。CW 值 的 集合 从 
PHY 指定 的 常数 aCWmin 开始 ,以 2 Ae ( 减 1 ) 增加 ， 直 到 每 个 连续 传输 尝试 次 数 的 常数 
aCWmax 为 止 。 这 样 做 与 以 太 网 中 由 冲突 检测 事件 引发 的 退 避 过 程 相 似 。 

在 无 线 环境 中 ， 冲 突 检 测 是 不 实际 的 。 由 于 难以 发 现 发 送 方 和 接收 方 同时 发 送 ， 也 难以 
监听 自己 之 外 的 传输 ， 因 此 采用 冲突 避免 来 代替 冲突 检测 。 另 外 ，ACK 是 针对 单 播 帧 的 响 
应 ， 以 确定 一 个 帧 是 否 成 功 传递 。 当 一 个 站 正确 接收 一 个 帧 时 ， 在 等 待 一 小 段 时 间 ( 称 为 短 
帧 间 间 隔 ( SIFS)) 后 开始 传输 ACK, 并且 不 考虑 介质 的 忙碌 /空闲 状态 。 这 样 做 不 会 导致 
问题 ， 由 于 SIFS 的 值 始终 比 DIFS 小 ， 因 此 该 站 产生 的 ACK 可 优先 访问 信道 ， 以 完成 接收 
确认 。 源 站 在 一 定时 间 内 没有 接收 到 ACK， 则 意味 着 一 次 传输 失败 。 在 失败 后 ， 源 站 启动 
前 面 讨论 的 退 避 过 程 ， 并 重新 尝试 发 送 帧 。 如 果 在 一 定时 间 ( CTStimeout 常数 ) 内 没有 接收 
到 对 较 早 RTS 响应 的 CTS， 则 启动 同样 的 过 程 。 


3.5.3.4 HCF Al 802.11e/n 的 QoS 

802.11 标准 [802.11-2007] 中 的 条 款 5、6、7 和 9 都 基于 IEEE 802.11e 工作 组 的 部 分 工 
作 ， 常 用 的 术语 有 802.11e, Wi-Fi QoS 和 WMM( 基 于 Wi-Fi 的 多 媒体 )。 它 们 涉及 QoS 功能 : 
修改 802.11 MAC 层 和 系统 接口 以 支持 多 媒体 应 用 ,例如 IP IRE (VoIP) 和 流 媒 体 。QoS 功 
能 实际 是 否 必要 ， 取 决 于 网 络 层 拥 塞 和 应 用 类 型 。 如 果 网 络 利 用 率 较 低 ， 可 能 不 必要 支持 
QoS 的 MAC， 虽 然 其 他 802.11e 功能 可 能 有 用 (例如 块 确认 和 APSD)。 在 网 络 利 用 率 和 拥 
塞 较 高 的 情况 下 ， 需 要 为 VoIP 等 服务 提供 低 拌 动 交 付 能 力 ， 这 时 支持 QoS 可 能 是 可 取 的 。 
这 些 规范 相对 较 新 ， 支 持 QoS 的 Wi-Fi 设备 通常 比 不 支持 QoS 的 设备 更 昂贵 和 更 复杂 。 

QoS 功能 引入 了 新 的 术语 ,例如 QoS 站 (QSTA)、QoS 接 入 点 (QAP) 和 QoS BSS 
(QBSS， 支 持 QoS 的 BSS)。 在 一 般 情 况 下 ， 支 持 QoS 功能 的 设备 也 支持 传统 的 非 QoS 操 
作 。802.11n“ 高 吞吐 量 ” 站 (又 称 为 HT STA) 也 是 QSTA。 混 合 协调 功能 (HCF) 是 一 种 新 
的 协调 功能 ， 支 持 基 于 竞争 和 可 控制 的 信道 访问 ， 尽 管 可 控制 的 信道 访问 技术 很 少 使 用 。 在 
HCF 中 ， 有 两 种 专门 的 信道 访问 方法 可 协同 工作 : HFCA 控制 信道 访问 (HCCA) 和 更 流行 
的 增强 型 DCF 信道 访问 (EDCA)， 它 们 分 别 对 应 于 基于 预约 和 基于 竞争 的 访问 。 这 里 也 有 
一 些 对 准 入 控制 的 支持 ， 它 们 可 在 高 负载 下 完全 拒绝 访问 。 

EDCA 建立 在 基本 的 DCF 访问 之 上 。 通 过 EDCA，8 个 用 户 优先 级 (UP) 被 映射 为 4 个 


ee. 


访问 类 别 ( AC)。 用 户 优 先 级 使 用 与 802.1d 优先 级 标记 相同 的 结构 ， 并 被 编号 为 1 至 7 (在 
2 和 3 之 间 还 有 一 个 优先 级 0 )， 其 中 7 为 最 高 优先 级 。4 个 访问 类 别 分 别 为 背景 、 尽 力 而 为 、 
视频 和 音频 流量 。 优 先 级 1 和 2 用 于 背景 AC， 优 先 级 0 和 3 用 于 尽力 而 为 AC， 优 先 级 4 和 
5 用 于 视频 AC， 优 先 级 6 和 7 用 于 音频 AC. MFRS AC, DCF 的 一 个 变种 竞争 信道 访问 
许可 ， 称 为 传输 机 会 (TXOP)， 为 较 高 优先 级 的 流量 使 用 可 选 的 MAC 参数 。 在 EDCA tP, 
很 多 来 自 DCF 的 MAC 参数 (fd, DIFS, aCWmin, aCWmax) 作为 配置 参数 是 可 调整 的 。 
这 些 值 可 通过 管理 帧 传输 给 QSTA. 

HCCA 松散 地 建立 在 PCF 之 上 ， 并 使 用 轮 询 来 控制 信道 访问 。 它 属于 同步 方式 的 访问 
控制 ， 并 优先 于 基于 竞争 的 EDCA 访问 。 混 合 协 调 (HC) 位 于 一 个 AP 中 ， 并 优先 于 信道 
访问 分 配 。 在 一 次 传输 之 前 ， 一 个 站 可 为 其 流量 发 布 一 个 流量 规范 (TSPEC)， 并 使 用 8 和 
15 之 间 的 UP 值 。HC 可 为 这 种 请 求 分 配 保留 的 TXOP， 它 被 用 于 基于 EDCA 的 帧 传输 之 前 
的 短期 控制 访问 阶段 的 帧 交换 。HC 可 拒绝 TXOP 的 基于 网 络 管理 员 设 置 的 管理 控制 策略 的 
TSPEC。HCF 利用 前 面 讨论 过 的 虚拟 载波 侦 听 机 制 和 DCF， 以 避免 基于 竞争 的 站 被 不 基于 
竞争 的 访问 所 干扰 。 注 意 ， 在 包括 QSTA 和 常规 站 的 网 络 中 ， 可 同时 运行 HCF 和 DCF， 并 
在 两 者 之 间 切 换 ， 但 Ad hoc 网 络 不 支持 HC， 因此 它 不 处 理 TSPEC 和 不 执行 管理 控制 。 这 
种 网 络 可 能 仍 运行 HCF, {A TXOP 通过 基于 EDCA 的 竞争 来 获得 。 


3.5.4 物理 层 的 细节 : 速率 、 信 道 和 频率 


目前 ，[802.11-2007] 标准 包括 以 下 较 早 的 修订 版 : 802.11a、802.11b、802.11d、802.11g、 
802.11h, 802.11i, 802.11j 和 802.11e。802.11n 标 准 在 2009 年 被 采纳 为 802.11 的 修订 版 
[802.11n-2009]。 大 多 数 的 修订 版 为 802.11 网 络 提供 额外 的 调制 、 编 码 和 工作 频率 ， 但 
802.11n 还 增加 了 多 种 数据 流 和 一 种 聚合 多 帧 方法 ( 见 3.5.1.3 节 )。 我 们 尽量 避免 详细 讨论 物 
理 层 ， 这 里 只 是 看 一 下 可 选 的 内 容 。 表 3-2 包括 802.11 标准 中 特别 描述 的 物理 层 部 分 。 


表 3-2 802.11 标准 中 描述 的 物理 层 部 分 
速率 (Mb/s) 频率 范围 ; 调制 


6, 9, 12, 18, 24, 36,| 5.16GHz ~ 5.35GHz 和 5.725 = 
48. 54 5.825GHz; OFDM 


1-2. ss 11 2.401GHz ~ 2.495GHz; DSSS 
Le DSS Gs Os 1x EN 
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802.11g (第 19 条 ) 2.401GHz ~ 2.495GHz; OFDM| 1 ~ 14 (根据 国家 不 同 ) 










1 ~ 13 (2.4GHz 频段 ); 
36 ~ 196 (SGHz 频段 )( 根 
据 国家 不 同 ) 

L = 25,36 ~ 64, 
100 ~ 161 (根据 国家 不 同 ) 





6.5 ~ 600， 很 多 选项 (最 多 | 2.4GHz 和 SGHz 模式 ， 信 道 宽 
4 个 MIMO 流 ) 度 20MHz 或 40MHz; OFDM 


y 3.650GHz ~ 3.700GHz (需要 


第 一 列 给 出 了 标准 的 原 有 和 名称 和 在 [802.11-2007] 中 的 当前 位 置 ， 并 增加 802.11n 和 
802.11y 修订 版 的 细节 。 在 这 个 表 中 ， 需 要 注意 的 是 ，802.11b/g 工作 在 2.4GHz 的 工业 、 
科学 和 医疗 (ISM) 频段 ，802.11 仅 工作 在 更 高 的 5GHz 的 无 须 许可 的 国家 信息 基础 设施 
CU-NID) 频段 ， 而 802.11n 可 工作 在 这 两 个 频段 。802.11y 修订 版 在 美国 工作 在 需要 许可 的 
3.65 ~ 3.70GHz 频段 。 我 们 应 注意 的 一 个 重要 的 实践 结论 是 : 802.11b/g 设备 与 802.11a 设备 


802.11n 












802.11y 


st 路 & 85 


不 会 互 操作 或 和 干扰， 但 是 如 果 不 认 真 进 行 部 署 ，802.1ln 设备 可 能 被 任何 设备 干扰 。 


3.5.4.1 ”信道 和 频率 

监管 机 构 (例如 美国 联邦 通信 委员 会 ) 将 电磁 波谱 划分 为 不 同 频率 范围 ， 并 分 配给 世界 
各 地 的 不 同 应 用 。 对 于 每 个 频率 范围 及 其 用 途 ， 根 据 本 地 政策 可 能 需要 或 不 需要 申请 许可 
证 。 在 802.11 中 ， 多 个 信道 可 能 以 不 同方 式 、 不 同 功 率 水 平 工 作 ， 这 取决 于 所 在 地 区 或 国家 
的 监管 。Wi-Fi 信道 在 某 个 基本 中 心 频率 的 基础 上 以 5MHz 为 单位 进行 编号 。 例 如 ， 信 道 36 
的 基本 中 心 频率 为 5.00GHz， 则 信道 36 的 中 心 频率 为 5000 + 36*5 = 5180MHz。 虽 然 信 道 的 
中 心 频率 之 间 以 5MHz 为 间隔 ， 但 信道 宽度 可 能 超过 5MHz ( 802.11n 高 达 40MHz)。 因 此 ， 
信道 集中 的 某 些 频 段 内 的 信道 经 常 重 倒 。 实 际 上 ， 这 意味 着 一 个 信道 上 的 传输 可 能 干扰 附近 
言 道上 的 传输 。 

图 3-20 给 出 了 802.11b/g 信道 在 2.4GHz 的 ISM 频段 内 的 信道 与 频率 映射 。 每 个 信道 
宽度 为 22MHz。 并 非 所 有 信道 都 可 在 每 个 国家 合法 使 用 。 例 如 ， 信 道 14 仅 被 授权 在 日 本 使 
用 ,信道 12 和 13 被 授权 在 欧洲 使 用 ， 而 美国 只 能 使 用 信道 1 ~ 11。 其 他 国家 可 能 更 严格 
(UL 802.11 标准 的 Annex J 和 修订 版 )。 注 意 ， 政 策 和 许可 要 求 可 能 随时 间 而 改变 。 
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图 3-20 802.11b 和 802.11g 标准 使 用 2.4GHz 和 2.5GHz 之 间 的 频段 。 这 个 频段 被 划分 为 14 个 22MHz 
宽 的 重合 信道 ， 其 中 一 些 子 集 是 否 可 合法 使 用 取决 于 所 在 国家 。 在 同一 地 区 运行 多 个 基站 ， 
分 配 非 重 全 的 信道 是 可 取 的 做 法 ,例如 美国 的 1、6 和 11。 只 有 一 个 40MHz 的 802.11n 信道 
可 用 于 此 频段 而 不 会 发 生 重 释 


如 图 3-20 所 示 ， 重 二 信道 的 影响 是 明显 的 。 例 如 ， 一 个 传输 方 工作 在 信道 1 上 ， 它 与 
信道 2、3、4 和 5 重 琶 ,但 与 更 高 的 信道 不 重 释 。 在 可 使 用 多 个 接 入 点 的 环境 中 ， 选 择 使 用 
哪 条 信道 是 很 重要 的 ， 当 同一 区 域 中 有 多 个 接 和 点 为 多 个 网 络 提供 服务 时 ， 如 何 选择 信道 至 
关 重 要 。 在 美国 ， 常 用 方法 是 同一 区 域 中 的 3 个 AP 使 用 不 重 共 的 信道 1、6 和 11， 信 道 11 
在 美国 是 无 须 许可 即 可 使 用 的 最 高 频率 信道 。 在 其 他 无 线 局 域 网 也 在 同一 频段 运行 的 情况 
下 ， 应 该 由 所 有 受 影响 的 WLAN 管理 员 共 同 规划 信道 。 

如 图 3-21 所 示 ，802.11a/n/y 共享 一 个 有 些 复杂 的 信道 设置 ,但 提供 了 更 多 的 不 重生 信 
道 ( 即 美 国 的 12 个 无 须 许可 的 20MHz 信道 )。 

在 图 3-21 中 ,信道 以 5MHz 为 单位 递增 , 但 存在 不 同 的 信道 宽度 : 5MHz、10MHz、 
20MHz 和 40MHz. 40MHz 信道 宽度 是 802.11n 的 一 个 选项 (UL 3.5.4.2 节 )， 可 将 几 个 不 同 所 
ABW Wi-Fi 系统 聚合 为 2 个 20MHz 信道 ( 称 为 信道 绑 定 )。 
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图 3-21 20MHz 信道 中 的 一 些 可 用 的 802.11 信道 号 和 中 心 频率 。 最 常见 的 无 须 许可 使 用 的 频率 范 
围 包 括 U-NU 频段 ， 它 们 均 在 SGHz 之 上 。 较 低频 段 被 批准 可 用 于 大 多 数 国家 。“ 欧 洲 ” 频 
段 被 批准 用 于 大 多 数 欧洲 国家 ， 高 频段 被 批准 用 于 美国 和 中 国 。802.11a/y 信道 的 典型 宽度 
为 20MHz， 但 802.11n 的 信道 宽度 可 能 为 40MHz。 另 外 ,在 日 本 也 可 使 用 罕 信 道 和 某 些 信 
道 (未 显示 ) 


对 于 典型 的 Wi-Fi 网 络 ， 在 AP 安装 过 程 中 需要 指定 其 运行 信道 ， 并 由 用 户 所 在 的 站 修 
改 信道 以 便 连接 到 AP。 当 运行 在 Ad hoc 模式 时 ， 没 有 起 控制 作用 的 AP， 因 此 一 个 站 通常 
需要 为 AP 手工 配置 信道 。 可 用 的 信道 和 和 运行 功率 可 能 受 限 于 监管 环境 、 硬 件 功能 ， 以 及 所 
支持 的 驱动 程序 软件 。 


3.5.4.2 ”更 高 吞吐 量 的 802.11/802.1ln 

2009 年 年 底 ，IEEE 将 [802.11-2007] 修订 为 802.11n [802.11n-2009], È Xt 802.11 做 了 
一 些 重要 改变 。 为 了 支持 更 高 吞吐 量 ， 它 采用 多 输入 多 输出 (MIMO) 管理 空间 流 (Spatial 
Stream)， 即 由 多 个 天 线 同 时 传输 的 多 个 数据 流 。 一 个 给 定 信 道上 最 多 支持 4 个 这 种 空间 流 。 
802.11n 信道 宽度 可 以 是 40MHz (使 用 两 个 相 邻 的 20MHz 信道 )， 这 是 传统 802.1 1a/b/g/y 信 
道 宽度 的 两 倍 。 因 此 ， 它 可 将 802.11a/g 的 最 大 传输 速率 ( 54Mb/s) 提高 8 倍 ， 达 到 432Mb/s。 
802.11n 也 提高 了 单个 流 的 性 能 ， 使 用 一 种 更 高 效 的 调制 方案 ( 802.11n 采用 MIMO- 正 交 频 
TAM (OFDM)， 每 个 20MHz 信道 最 多 承载 52 个 数据 载波 ， 每 个 40MHz 信道 最 多 承载 
108 个 数据 载波 ， 代 替 802.11a 和 802.11g 中 的 48 个 )， 以 及 一 种 更 有 效 的 转发 纠 错 编码 (以 
编码 率 5/6 代替 3/4 )， 将 每 个 流 性 能 提升 到 OSMb/s ( 20MHz 信道 ) 或 135Mb/s ( 40MHz 信 
道 )。 通 过 将 保护 间隔 (GI， 一 个 强制 的 符号 之 间 的 空闲 时 间 ) 从 传统 的 800ns 减少 到 400ns, 
每 个 流 的 最 大 性 能 可 提高 到 72.2Mb/s ( 20MHz 信道 ) 和 150Mb/s ( 40MHz 信道 )。 通 过 4 个 
空间 流 的 完美 协同 操作 ， 这 样 可 提供 最 高 600Mb/s 的 传输 速率 。 

802.11n 标准 支持 大 约 77 种 调制 和 编码 选项 组 合 ， 其 中 包括 8 种 对 应 单个 流 的 选项 ， 
24 种 可 在 所 有 流 中 使 用 的 平等 调制 (EQM) 选项 ， 以 及 43 种 可 在 多 个 流 上 使 用 的 不 平等 调 
制 (UEQM) 选项 。 表 3-3 给 出 了 调制 和 编码 方案 的 一 些 组 合 ， 对 应 于 调制 和 编码 方 
案 (MCS) 的 前 33 个 值 。 更 大 的 值 (33 ~ 76) 包括 2 个 信道 ( 值 33 ~ 38)、3 个 信道 
(39 ~ 52) 和 4 个 信道 (53 ~ 76) 的 组 合 。MCS 值 32 是 一 个 特殊 组 合 ， 即 40MHz 信道 的 
两 路 信号 包含 相同 信息 。 每 行 给 出 了 2 个 数据 传输 速率 ， 一 个 使 用 早期 的 800ns GI, 一 个 使 
用 较 短 的 400ns GI 以 获得 更 大 传输 速率 。 两 个 带 下 划 线 的 值 6Mb/s 和 600Mb/s， 分 别 表示 最 
小 和 最 大 吞吐 率 。 
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$ 3-3 802.11n 的 MCS 值 包括 平 等 和 不 平等 调制 ， 不 同 的 FEC 编码 率 ， 使 用 20MHz 或 40MHz 信 
道 宽 度 的 4 个 空间 流 ， 以 及 800ns 或 400ns GI 的 组 合 。77 种 组 合 提供 从 6Mb/s 到 600Mb/s 


的 数据 传输 速率 
速率 (Mb/s) 速率 (Mb/s) 
MCS 调制 类 型 FEC 编码 空间 流 

a [mam | recess | ema | (on) oon) | (one) 
0 BPSK = j- a | 6.5/7.2 13.5/15 
2 QPSK am | | 19.5/21.7 40.5/45 
4 16-QAM | ae | at 3974.3 81/90 
5 64-QAM a a 52/57.8 108/120 
6 64-QAM | aa | a | 58.5/65 121.5/135 
7 64-QAM | 5% | a | 65/72.2 135/150 
15 64-QAM 5/6 130/144.4 270/300 
16 BPSK 19.5/21.7 40.5/45 
31 64-QAM a9 | ae 260/288.9 540/600 
76 64x3/16x1-QAM | 34 | 4 | 214.5/238.3 445.5/495 


K 3-3 显示 了 可 用 于 802.11n 的 各 种 编码 组 合 ， 包 括 二 进 制 相 移 键 控 ( BPSK)、 正 交 相 
移 键 控 (QPSK)， 以 及 各 种 正 交 幅度 调制 ( 16-QAM 和 64-QAM)。 这 些 调 制 方案 为 给 定 的 信 
道 提供 更 大 的 传输 速率 。 但 是 ， 性 能 更 高 和 更 复杂 的 调制 方案 ,通常 更 容易 受到 噪声 干扰 。 
转发 纠 错 (FEC) 包括 一 套 方 法 ， 在 发 送 方 引 入 一 些 元 余 位 ， 用 于 检测 和 修改 传输 过 程 中 的 
错误 。 对 于 FEC， 编 码 率 是 可 用 传输 速率 与 底层 信道 规定 速率 之 比 。 例 如 ，1/2 编码 率 表示 
每 发 送 2 位 数据 ， 只 有 1 位 有 效 交 付 。 

802.11n 可 工作 在 3 种 模式 下 。 在 802.11n 环境 中 ， 可 选择 所 谓 的 绿地 模式 ，PLCP 包含 
特殊 位 序列 (“训练 序列 ”)， 它 仅 被 802.11n 设备 获得 ， 不 与 传统 设备 进行 互 操作 。 为 了 保 
持 兼 容 性 ，802.11n 提供 了 2 种 互 操作 模式 。 但 是 ， 这 些 模式 对 纯 802.11n 设备 会 带 来 性 能 
损失 。 一 种 模式 称 为 非 HT 模式 ， 禁 止 所 有 802.11n 功能 ， 但 仍 与 原 有 设备 兼容 。 这 不 是 一 
种 很 有 趣 的 模式 ， 因 此 我 们 不 再 进一步 讨论 。 另 一 种 模式 称 为 HT 混合 模式 ， 支 持 802.11n 
和 传统 操作 ， 这 取决 于 与 哪个 站 进行 通信 。PLCP 给 出 了 向 HT STA 提供 AP 的 802.11n 功 
能 和 保护 传统 STA 所 需 的 信息 ，PLCP 被 修订 为 包含 HT 和 传统 信息 ， 并 以 一 个 比 绿地 模 
式 慢 的 速度 传输 ， 以 便 传统 设备 来 得 及 处 理 。 在 一 个 传统 站 使 用 共享 信道 时 ，HT 保护 还 要 
SK HT AP 使 用 自 定向 CTS 帧 (或 RTS/CTS 帧 交换 ) 以 传统 速率 通知 传统 站 。 尽 管 RTS/CTS 
WERK, 但 由 于 它们 是 以 传统 速率 (6Mb/s) 发 送 ， 所 以 这 将 显著 降低 802.11n WLAN 
性 能 。 

在 部 署 一 个 802.11n AP 时 ， 应 考虑 分 配 适 当 的 信道 。 在 使 用 40MHz 信道 时 ，802.11n 
AP 应 运行 在 5GHz 以 上 的 U-NII 频段 ，2.4GHz 的 ISM 频段 中 根本 没有 足够 的 可 用 频段 提 
供 这 么 宽 的 信道 。 一 种 可 选 的 BSS 功能 称 为 分 阶段 共存 操作 (PCO)， 人 允许 一 个 AP 定期 在 
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20MHz 和 40MHz 信道 宽度 之 间 切 换 ， 更 好 地 提供 802.11n AP 之 间 的 共存 ， 以 一 些 额外 流 

量 代价 为 附近 的 传统 设备 提供 服务 。 最 后 值得 一 提 的 是 ，802.1ln AP 通常 比 传统 AP 消耗 更 

多 能 量 。 这 种 比 基 本 的 15W 更 高 的 电源 功率 ， 可 由 802.3af AAR MH (PoE) 系统 提供 ， 

这 意味 着 需要 使 用 PoE + (802.3at 能 提供 30W)， 除 非 有 其 他 形式 的 电源 (例如 一 个 外 接 
128] 电源 )。 


3.5.5 Wi-Fi 安全 


802.11 网 络 的 安全 模型 有 很 大 变化 。 早 期 ，802.11 采用 一 种 称 为 有 线 等 效 保密 ( WEP) 
的 加 密 方法 。WEP 后 来 被 证 明 安全 性 薄弱 ,并 出 现 了 替换 它 的 需求 。 工 业界 通过 Wi-Fi 保 
护 访 问 (WPA) 来 回应 ， 它 使 用 加 密 块 OLS 18 章 的 密码 学 基础 知识 ) 代替 密 钥 方 式 。 在 
WPA 中 ， 采 用 一 种 称 为 临时 密 钥 完整 性 协议 (TKIP) 的 方案 ， 确 保 每 个 帧 都 用 不 同 密 钥 加 
密 。 它 还 包括 一 种 称 为 Michael 的 消息 完整 性 检查 ， 以 弥补 WEP 中 的 主要 弱点 之 一 。WPA 
被 创建 为 一 个 占 位 符 ， 可 通过 硬件 升级 方式 使 设备 支持 WEP 功能 。IEEE 802.11i 工作 组 制定 
了 一 个 功能 更 强 的 标准 ， 最 终 被 吸收 到 [802.11-2007] 的 第 8 条 ， 并 被 工业 界 称 为 “WPA2”。 
WEP 和 WPA 都 使 用 RC4 加 密 算法 [S96]。WPA2 使 用 高 级 加 密 标 准 (AES) 算法 [AES01]。 

我 们 刚才 讨论 的 加 密 技 术 ， 用 于 在 站 和 AP 之 间 提 供 隐 私 保 护 (假设 站 拥有 访问 网 络 的 
合法 授权 )。 在 使 用 WEP、WPA 或 WPA2 的 小 规模 环境 中 ， 授 权 通 常 通过 预先 设置 一 个 共 
享 密 钥 或 密码 来 实现 ， 它 在 每 个 站 和 AP 的 配置 过 程 中 生成 。 知 道 这 个 密 钥 的 用 户 拥有 访问 
网 络 的 合法 授权 。 这 些 密 钥 常 用 于 保护 隐私 的 加 密 密 钥 的 初始 化 。 这 种 预 共享 密 钥 (PSK) 
具有 局 限 性 。 例 如 ， 管 理 员 为 授权 用 户 提供 密 钥 ， 这 可 能 是 相当 麻烦 的 事 。 如 果 一 个 新 的 用 
户 被 授权 ， 必 须 更 换 PSK 并 通知 所 有 合法 用 户 。 这 种 方法 难以 用 于 有 很 多 用 户 的 环境 。 因 
此 ，WPA 和 后 期 标准 支持 基于 端口 的 网 络 访问 控制 标准 ， 称 为 802.1X [802.1X-2010]。 它 提 
供 了 一 种 在 IEEE 802 局 域 网 ( 称 为 EAPOL， 包 括 802.3 和 802.11 [RFC4017]) 中 使 用 扩展 
身份 验证 协议 (EAP) [RFC3748] 的 方式 。EAP 可 使 用 多 种 标准 和 非 标 准 化 的 认证 协议 。 它 
也 可 用 于 建立 密 钥 ， 包 括 WEP 密 钥 。 第 18 章 将 详细 讨论 这 些 协 议 。 我 们 在 3.6 节 讨 论 PPP 
时 也 会 看 到 EAP 的 使 用 。 

随 着 IEEE 802.111 工作 组 的 工作 完成 ，WPA 和 RC4/TKIP 组 合 扩展 为 一 个 称 为 CCMP 
的 新 方案 ， 它 被 作为 WPA2 的 一 部 分 。CCMP 是 基于 计数 器 模式 (CCM [RFC3610]) 的 
AES， 以 确保 用 于 认证 和 完整 性 的 密码 块 链接 消息 认证 码 (CBC-MAC ; 注意 术语 MAC 在 这 
里 的 “其 他 ”用 途 ) 的 安全 。AES 采用 128 位 的 块 和 128 位 的 密 钥 。CCMP 和 TKIP 形成 了 
Wi-Fi 安全 体系 结构 的 基础 ， 称 为 强健 安全 网 络 (RSN)， 并 支持 强健 安全 网 络 访 问 (RSNA). 
早期 的 一 些 方法 (如 WEP) 称 为 预 RSNA 方法 。RSNA 要 求 支持 CCMP (TKIP 可 选 )， 而 

802.11n 标准 完全 不 使 用 TKIP。 表 3-4 总 结 了 这 种 复杂 情况 。 


表 3-4 Wi-Fi 安全 已 从 不 安全 的 WEP 演变 到 WPA， 再 到 当前 标准 的 WPA2 方案 


在 所 有 情况 下 ， 预 共享 密 钥 和 802.1X 可 用 于 认证 和 初始 化 密 钥 。802.1X/EAP 的 主要 吸 
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引力 在 于 其 可 管理 的 认证 服务 器 ， 它 基于 AP 为 每 个 用 户 提 供 访问 控制 决策 。 出 于 这 个 原因 ， 
使 用 802.1X 的 认证 有 时 称 为 “企业 ”( 例 如 WPA 企业 )。EAP 本 身 可 封装 各 种 认证 协议 ， 我 
们 将 在 第 18 章 详细 讨论 这 些 协 议 。 


3.5.6 Wi-Fi 网 状 网 ( 802.11s ) 


IEEE 正在 制定 802.11s 标准 ， 其 中 包括 Wi-Fi 的 网 状 网 (Mesh) 操作 。 通 过 Mesh 操 
作 ， 无线 站 点 可 用 作 数 据 转发 代理 ( 像 AP 那样 )。 在 作者 编写 本 书 期 间 ( 2011 年 中 期 )， 这 
个 标准 仍 未 完成 。802.11s 草案 定义 了 混合 无 线路 由 协议 (HWRP)， 它 基于 Ad hoc 按 需 距离 
向 量 (AODV) 路 由 [RFC3561] 和 优化 链 路 状态 路 由 (OLSR) 协议 [RFC3626] 等 IETF 标准 。 
Mesh 站 (Mesh STA) 是 一 种 QoS 站 ， 它 可 能 参与 HWRP 或 其 他 路 由 协议 ， 但 兼容 节点 必须 
包括 HWRP 实现 和 相关 通话 时 间 链 路 度量 。Mesh 节点 使 用 EDCA 来 协同 工作 ， 或 使 用 一 种 
可 选 的 称 为 Mesh 确定 性 访问 的 协同 功能 。Mesh 点 (MP) 是 与 邻居 形成 Mesh 连接 的 那些 节 
点 。 那 些 包 含 AP 功能 的 Mesh 点 称 为 Mesh AP (MAP)。 常 规 802.11 站 可 使 用 AP 或 MAP 
访问 无 线 局 域 网 的 其 他 部 分 。 

802.11s 草案 为 RSNA 制定 了 一 种 可 选 的 新 安全 方案 ， 称 为 基于 对 等 同时 认证 (SAE) 的 
认证 [SAE]。 这 种 安全 协议 与 其 他 协议 有 些 区 别 ， 它 并 不 需要 一 个 特定 的 发 起 者 和 响应 者 之 
间 的 操作 同步 。 相 反 ， 所 有 站 都 被 平等 对 待 ， 先 发 现 其 他 站 的 任何 站 可 启动 一 次 安全 交换 
(这 可 能 导致 两 个 站 同时 启动 一 次 交换 )。 


3.6 点 到 点 协议 


PPP 表示 点 到 点 协议 [RFC1661] [RFC1662] [RFC2153]。 这 是 一 种 在 串 行 链 路 上 传输 IP 
数据 报 的 流行 方法 ， 从 低速 的 拨号 调制 解 调 器 到 高 速 的 光 链 路 [RFC2615]。 它 被 一 些 DSL 服 
务 供应 商 广泛 部 署 ， 也 可 分 配 Internet 系统 的 参数 (例如 ， 最 初 的 卫 地 址 和 域名 服务 器 ; 见 
第 6 章 )。 

PPP 实际 上 是 一 个 协议 集合 ， 而 不 是 一 个 单一 的 协议 。 它 支持 建立 链接 的 基本 方法 一 一 
称 为 链 路 控制 协议 (Link Control Protocol，LCP)， 以 及 一 系列 NCP 协议 , 在 LCP 建立 了 基 
本 链 路 之 后 ， 用 于 为 各 种 协议 (包括 IPv4、IPv6 和 非 IP 协议 ) 建立 网 络 层 链 路 。 一 些 相关 
标准 涉及 对 PPP 的 压缩 和 加 密 控制 ， 以 及 在 链接 建立 后 的 一 些 认证 方法 。 


3.6.1 链 路 控制 协议 


PPP 的 LCP 用 于 在 点 到 点 链 路 上 建立 和 维护 低层 的 双方 通信 路 径 。 因 此 ，PPP 操作 只 需 
关注 一 条 链 路 的 两 端 ， 它 不 需要 像 以 太 网 和 Wi-Fi 的 MAC 层 协议 那样 处 理 共享 资源 访问 的 
问题 。 

PPP 通常 对 底层 的 点 到 点 链 路 有 最 低 要 求 ,LCP 更 是 这 样 。 链 路 必须 支持 双向 操作 (LCP 
使 用 的 确认 )， 以 及 异步 或 同步 操作 。 通 常 ，LCP 使 用 简单 的 位 级 别 帧 格式 ， 基 于 高 级 数据 
链 路 控制 (HDLC) 建立 链 路 协议 。 在 PPP 设计 时 ，HDLC 就 已 建立 了 一 种 良好 的 帧 格式 
[ISO3309] [ISO4335]。IBM 将 它 修 改 为 同步 数据 链 路 控制 (SDLC)， 在 其 专用 的 系统 网 络 体 
系 结构 (SNA) 协议 族 中 用 作 链 路 层 协 议 。HDLC 协议 还 用 作 802.2 中 LLC 标准 的 基础 ， 并 
最 终 被 用 于 PPP。 图 3-22 显示 了 这 种 格式 。 
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图 3-22 .PPP 基本 帧 格式 借用 了 HDLC 的 格式 。 它 包括 一 个 协议 标识 符 、 有 效 载荷 区 域 ， 以 及 2 或 4 
字 节 的 FCS。 其 他 字段 是 否 存 在 取决 于 压缩 选项 


在 通常 情况 下 ，PPP 帧 格式 类 似 于 图 3-22 所 示 的 HDLC 帧 ， 由 2 个 1 字 节 的 包含 固定 
值 0x7E 的 标志 字段 “包围 ”。 点 到 点 链 路 的 两 个 端点 使 用 这 些 字段 来 发 现 一 个 帧 的 开始 和 
结束 。 如 果 0x7E 值 出 现在 帧 内 部 ， 这 时 会 带 来 一 个 小 问题 。 它 可 通过 两 种 方式 来 处 理 ， 这 
ei PPP 工作 在 异步 还 是 同步 链 路 上 。 对 于 异步 链 路 ，PPP 使 用 字符 填充 (也 称 为 字 节 填 
。 如 果 标 志 字 符 出 现在 帧 中 其 他 地 方 ， 则 用 2 字 节 序列 0x7D5E ( 0x7D 称 为 “PPP 转 义 
ne ) 替换 。 如 果 转 义 字 符 本 身 出 现在 帧 中 ， 则 用 2 字 节 序列 0x7D5D 替换 。 因 此 ， 接 收 
Ti FA 0x7E 替换 接收 的 OxTDSE, FF FH 0x7D 替换 接收 的 0x7D5D。 在 同步 链 路 (例如 Tl 线 
路 、T3 线路 ) 上 ，PPP 使 用 位 填充 。 注 意 ， 标 志 字符 的 位 模式 为 01111110 (连续 6 个 1 的 位 
序列 )， 在 除了 标志 字符 之 外 的 任何 地 方 ， 位 填充 在 5 个 连续 1 之 后 填充 一 个 0。 这 样 做 意味 
着 ， 发 送 的 字 节 可 能 超过 8 位 ,但 这 通常 是 正常 的 ， 因 为 低层 串 行 处 理 硬件 能 去 掉 填充 的 比 
特 流 ， 并 将 它 恢复 成 未 填充 时 的 样子 。 
在 第 一 个 标志 字段 之 后 ，PPP 采用 HDLC 的 地 址 (Addr) 和 控制 字段 。 在 HDLC 中 ,地 
址 字段 用 于 指定 哪个 站 正在 处 理 ， 但 是 由 于 PPP 只 关心 一 个 目的 地 ， 这 个 字段 总 是 被 设置 为 
OxFF (所 有 站 )。HDLC 控制 字段 用 于 指示 帧 序列 和 重 传 行为 。 由 于 这 些 链 路 层 的 可 靠 性 功 
能 通常 不 是 由 PPP 实现 ， 所 以 控制 字段 设置 为 固定 值 0x03。 由 于 地 址 和 控制 字段 在 PPP 中 
都 是 固定 的 常数 ， 所 以 在 传输 过 程 中 经 常 通过 一 个 称 为 地 址 和 控制 字段 压缩 (ACFC) 的 选项 
来 省 略 它们 ， 该 选项 实质 上 是 消除 了 这 两 个 字段 。 


注意 链 路 层 网 络 应 提供 多 少 可 靠 性 ， 多 年 来 一 直 存 在 相当 大 的 争议 。 在 以 太 网 
中 ， 在 放弃 之 前 可 尝试 重 传 多 达 16 次 。 通 常 ，PPP 被 配置 为 不 重 传 ， 尽管 确实 
有 增加 重 传 的 规范 [RFC1663]。 折 中 方案 是 巧妙 的 ， 但 它 依 赖 于 携带 的 流量 类 型 。 
[RFC3366] 详细 讨论 了 要 考虑 的 有 关 因 素 。 


PPP 帧 的 协议 字段 表明 携带 的 数据 类 型 。 在 一 个 PPP 帧 中 ， 可 携带 多 种 不 同类 型 的 协 
议 。 正 式 列表 和 用 于 协议 字段 的 分 配 号 显示 在 “点 到 点 协议 字段 分 配 ” 文 档 中 [PPPn]。 根 据 
HDLC 规范 ， 协 议 号 的 分 配方 式 为 : 高 位 字 节 的 最 低 有 效 位 为 0， 低 位 字 节 的 最 低 有 效 位 为 
1。0x0000 ~ 0x3FFF (十 六 进 制 ) 范围 内 的 值 表示 网 络 层 协 议 ，0x8000 ~ OxBFFF 范围 内 的 
值 表示 NCP 的 相关 数据 。0x4000 ~ 0x7FFF 范围 内 的 值 用 于 NCP 不 相关 的 “很 少 使 用 的 ” 
协议 。0xC000 ~ OxEFFF 范围 内 的 值 表示 控制 协议 ， 例 如 LCP。 在 某 些 情况 下 ， 如 果 协 议 字 
段 压 缩 (PFC) 选项 在 链 路 建立 时 协商 成 功 ， 协 议 字段 可 被 压缩 为 1 字 节 。0x0000 ~ 0x00FF 
AN 注意 ，LCP 分 组 总 是 使 用 
2 字 节 的 未 压缩 格式 。 

PPP 帧 的 最 后 部 分 包含 一 个 16 位 的 FCS (一 个 CRC16， 生 成 多 项 式 为 10001000000100001 ), 
涵盖 除 FCS 字段 本 身 和 标志 字 节 之 外 的 整个 帧 。 注 意 ，FCS 的 值 涵盖 任何 字 节 或 位 被 填充 之 
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前 的 帧 。LCP 选项 ( 见 3.6.1.2 节 ) 可 将 CRC 从 16 位 扩展 到 32 位 。 在 这 种 情况 下 ， 可 采用 
与 前 面 提 到 的 以 太 网 相同 的 CRC32 多 项 式 。 


3.6.1.1 LCP 操作 
LCP 在 基本 PPP 分 组 之 上 进行 了 简单 的 封装 。 如 图 3-23 所 示 。 


PPP 分 组 








Ge) D) M D ”可 变 QRA) 
LCP 分 组 


图 3-23 LCP 分 组 采用 很 普通 的 格式 ， 能 识别 封装 数据 的 类 型 和 长 度 。LCP 帧 主要 用 于 建立 PPP 链 路 ， 
这 种 格式 已 成 为 很 多 网 络 控制 协议 的 基础 








LCP 的 PPP 协议 字段 值 始终 是 0xC021， 它 不 能 用 PFC 删除， 以 免 产 生 歧 义 。 标 识字 
段 是 由 LO 请 求 帧 的 发 送 方 提供 的 序列 号 ， 并 随 着 每 个 后 续 消 息 进 行 递 增 。 在 生成 一 个 回 
复 (ACK, NACK 或 REJECT 响应 ) 时 ， 这 个 字段 通过 复制 响应 分 组 请 求 中 包含 的 值 来 构造 。 
采用 这 种 方式 ， 请 求 方 可 通过 匹配 标识 符 来 识别 相应 请 求 的 应 答 。 代 码 字 段 给 出 了 请 求 或 响 
应 的 操作 类 型 : 配置 请 求 (0x01 )、 配 置 ACK ( 0x02 )、 配 置 NACK (0x03 )、 配 置 REJECT 
(0x04 )、 终 止 请 求 ( 0x05 )、 终 止 ACK( 0x06 )、 代 码 REJECT( 0x07 )、 协 议 REJECT( 0x08 )、 
回 送 请 求 ( 0x09 )、 回 送 应 答 ( 0x0A)、 放 弃 请 求 ( 0x0B)、 标 识 ( 0x0C) 和 剩余 时 间 ( 0x0D)。 
ACK 消息 通常 表明 接受 一 组 选项 ，NACK 消息 用 建议 选项 表明 部 分 拒绝 。REJECT 消息 完 
全 拒绝 一 个 或 多 个 选项 。 拒 绝代 码 表明 前 一 个 分 组 包含 的 某 些 字段 值 未 知 。 长 度 字段 给 出 了 
LCP 分 组 的 字 节 长 度 ， 它 不 能 超过 链 路 的 最 大 接收 单元 (MRU)， 我 们 稍 后 讨论 一 种 建议 的 最 
大 帧 限制 。 注 意 ， 长 度 字 段 是 LCP 协议 的 一 部 分 ; PPP 协议 通常 不 提供 这 种 字段 。 

LCP 的 主要 工作 是 使 一 条 点 到 点 链 路 达到 最 低 要 求 。 配 置 消息 使 链 路 两 端 开 始 基本 配置 
过 程 ， 并 建立 商定 的 选项 。 终 止 消 息 用 于 在 完成 后 清除 一 条 链 路 。LCP 也 提供 了 前 面 提 到 的 
一 些 附加 功能 。 回 送 请 求 / 应 答 消息 可 由 LCP 在 一 条 活跃 链 路 上 随时 交换 ， 以 验证 对 方 的 操 
作 。 放 弃 请 求 消息 可 用 于 性 能 测试 ， 指 示 对 方 丢 弃 没 有 响应 的 分 组 。 标 识 和 剩余 时 间 消 息 用 
于 管理 目的 : 了 解 对 方 的 系统 类 型 ， 指 出 链 路 保持 建立 的 时 间 (例如 出 于 管理 或 安全 原因 )。 

从 历史 上 来 看 ， 如 果 一 个 远程 工作 站 处 于 环 回 模式 (或 者 说 “回路 ”)， 这 时 点 到 点 链 路 
会 出 现 一 个 常见 问题 。 电 话 公司 的 广 域 数 据 线路 有 时 会 为 了 测试 而 设置 成 环 回 模式 ， 由 一 
方 发 送 的 数据 直接 由 另 一 方 返回 。 虽 然 这 可 能 对 线路 测试 有 用 ， 但 它 对 数据 通信 完全 没有 帮 
助 ， 所 以 LCP 包括 一 种 发 送 魔术 数字 《由 发 送 方 选择 的 任意 数字 ) 的 方式 ， 并 查看 是 否 立 即 
返回 相同 类 型 的 消息 。 如 果 是 的 话 ， 该 线路 被 检测 为 处 于 回路 ， 并 可 能 需要 进行 维护 。 

为 了 对 PPP 链 路 建立 和 选项 协商 有 一 个 更 好 的 认识 ， 图 3-24 显示 了 一 个 简化 的 分 组 交 
换 时 间 表 和 一 个 简化 的 状态 机 (在 链 路 两 端 实现 )。 

一 旦 底层 协议 表明 一 个 关联 变 为 活跃 (例如 调制 解 调 器 检测 到 载波 )， 则 认为 这 个 链 路 已 
被 建立 。 链 路 质量 测试 包含 链 路 质量 报告 和 确认 交换 COL 3.6.1.2 节 )， 它 也 可 以 在 此 期 间 完 成 。 
如 果 链 接 需 要 认证 (这 是 常见 的 )， 例 如 当 拨号 到 一 个 ISP 时 ， 可 能 需要 一 些 额 外 的 信息 交换 ， 
以 认证 链 路 上 的 一 方 或 双方 的 身份 。 当 底层 协议 或 硬件 表明 一 个 关联 已 停止 (例如 载波 消失 )， 
或 发 送 一 个 链 路 终止 请 求 ， 并 从 对 方 接收 到 一 个 终止 响应 ， 则 认为 这 个 链 路 已 被 终止 。 


92 


B 
ve 
Rh 


对 等 方 1 交换 的 消息 对 等 方 2 


死亡 开启 
E Pat 
= 
: 失败 
建立 m 
关闭 cS Fi 
(可 选 )/ 
re RH 
认证 
PPP 状 态 机 


网 络 





死亡 死亡 
3-24 LCP 用 于 建立 PPP 链 路 和 各 方 商定 选项 。— 典 型 的 交换 过 程 包括 一 对 包含 选项 列表 的 配置 请 求 
和 配置 确认 、 一 个 认证 交换 、 数 据 交 换 (未 画 出 ) 和 一 个 终止 交换 。 因 为 PPP 是 一 个 包括 很 
多 部 分 的 通用 协议 ， 所 以 在 一 条 链 路 建立 和 终止 之 间 可 能 发 生 很 多 其 他 类 型 的 操作 


3.6.1.2 LCP 选项 

“4 LCP 建立 一 条 由 一 个 或 多 个 NCP 使 用 的 链 路 时 ， 可 以 对 一 些 选 项 进行 协商 。 我 们 
将 讨论 两 种 或 更 多 的 常见 情况 。 异 步 控制 字符 映射 (ACCM) 或 简称 “asyncmap ”选项 定义 
哪些 控制 字符 ( 即 0x00 ~ 0xlF 范围 内 的 ASCI 字符 ) 需要 被 “ 转 义 ”为 PPP 操作 。 转 义 一 
个 字符 表示 不 发 送 这 个 字符 的 真实 值 ， 而 将 PPP 转 义 字符 (0x7D) 放 在 控制 字符 原始 值 和 
0x20 异 或 形成 的 值 之 前 。 例 如 ，XOFF 字符 (0x13) 将 转换 为 (0x7D33 ) 发 送 。ACCM 用 于 
控制 字符 可 能 影响 底层 硬件 操作 的 情况 。 例 如 ， 如 果 软 件 流 控 制 能 够 使 用 XON/XOFF FIF, 
而 XOFF 字符 未 经 转 义 就 通过 链 路 传输 ， 则 硬件 直到 看 到 一 个 XON 字符 才 停 止 数据 传输 。 
asyncmap 选项 通常 是 一 个 32 位 的 十 六 进 制 数 ， 其 中 第 n 个 最 低 有 效 位 被 设置 为 1， 表示 值 为 
n 的 控制 字符 应 被 转 义 。 因 此 ，asyncmap 为 0xffffffff 表示 转 义 所 有 控制 字符 ， 为 0x00000000 
表示 不 转 义 任何 控制 字符 ， 为 0x000A0000 表示 转 义 XON (0x11) 和 XOFF (0x13 )。 虽 然 
0xffffffff 是 默认 值 ， 但 当前 很 多 链 路 可 在 asyncmap 被 设置 为 0x00000000 时 安全 运行 。 

由 于 PPP 缺少 一 个 长 度 字 段 ， 并 且 串 行 线路 通常 不 提供 帧 封装 ， 所 以 在 理论 上 对 一 个 
PPP 帧 的 长 度 没 有 硬性 限制 。 实 际 上 ， 最 大 帧 大 小 通常 由 MRU 指定 。 当 一 台 主 机 指定 一 个 
MRU 选项 (类 型 0x01 ) 时 ， 它 要 求 对 方 不 发 送 比 MRU 选项 提供 的 值 更 长 的 帧 。MRU 值 是 
数据 字段 的 字 节 长 度 ， 它 不 计算 其 他 PPP 开销 字段 ( 即 协议 、FCS、 标 志 字 段 )。 它 的 典型 
值 是 1500 或 1492， 但 也 可 能 多 达 65 535. IPv6 操作 需要 的 长 度 最 小 为 1280。PPP 标准 要 求 
具体 实现 能 接收 最 大 1500 字 节 的 帧 ，MRU 更 多 的 是 建议 对 方 选择 帧 大 小 ， 而 不 是 硬性 限制 
帧 大 小 。 当 小 分 组 和 大 分 组 在 同一 条 PPP 链 路 上 交错 传输 时 ， 较 大 分 组 可 能 占用 一 条 低 带 宽 
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链 路 的 大 部 分 带宽 ， 并 影响 小 分 组 的 正常 传输 。 这 可 能 导致 抖动 (延迟 变化 )， 对 交互 式 应 用 
(例如 远程 登录 和 VoIP) 产生 负面 影响 。 配 置 较 小 的 MRU (ak MTU) 有 助 于 缓解 这 个 问题 ， 
但 会 产生 更 大 的 开销 。 

PPP 支持 一 种 交换 链 路 质量 报告 信息 的 机 制 。 在 选项 协商 期 间 ， 可 能 包括 一 个 包含 所 请 
求 的 特定 质量 协议 的 配置 信息 。 选 项 中 的 第 16 位 被 保留 给 特定 协议 ， 但 最 常见 的 是 一 个 包 
括 链 路 质量 报告 (LQR) 的 PPP 标准 [RFC1989]， 它 在 PPP 协议 字段 中 使 用 值 0xC025。 如 
果 启 用 该 选项 ， 则 要 求 对 方 按 某 个 周期 间隔 提供 LQR。LQR 请 求 之 间 的 最 大 周期 间隔 被 编 
码 为 一 个 32 位 数字 ， 它 被 保存 在 配置 选项 中 ， 并 以 1/100 秒 为 单位 表示 。 对 方 可 能 比 这 个 
要 求 更 频繁 地 生成 LQR。LQR 包括 以 下 信息 : 一 个 魔术 数字 、 发 送 和 接收 的 分 组 数 和 字 节 数 、 
出 错 的 输入 分 组 数 和 丢弃 的 分 组 数 ， 以 及 交换 的 LQR 总 数 。 在 一 个 典型 的 实现 中 ， 人 允许 用 
户 设置 对 方 发 送 LOR 的 频繁 程度 。 如 果 链 路 质量 无 法 满足 某 些 配置 冰 值 ， 有 些 实现 也 提供 
了 终止 链 路 的 方法 。LQR 可 在 PPP 链 路 进入 建立 状态 后 请 求 。 每 个 LQR 被 赋予 一 个 序列 号 ， 
因此 它 能 确定 一 段 时 间 内 的 趋势 ， 甚 至 在 LOR 重新 排序 时 也 能 确定 。 

很 多 PPP 实现 支持 一 种 回 叫 功能 。 在 一 次 典型 的 回 叫 建立 过 程 中 ，PPP 拨号 回 叫 客户 端 
呼叫 PPP 回 叫 服务 器 ， 并 提供 认证 信息 ， 而 服务 器 断 开 连接 并 回 叫 客户 端 。 在 呼叫 费用 不 对 
称 或 对 于 某 些 安全 级 别 的 情况 下 ， 这 种 做 法 可 能 是 有 用 的 。LCP 选项 针对 用 于 协商 回 叫 的 协 
议 ， 该 选项 值 为 0x0D [RFC1570]。 如 果 许 可 ， 回 叫 控制 协议 (CBCP) 完成 协商 。 

PPP 使 用 的 一 些 压 缩 和 加 密 算法 在 处 理 时 需要 一 定 的 最 小 字 节 数 ， 称 为 块 大 小 。 在 数据 
不 够 长 的 情况 下 ， 通 过 填充 增加 数据 长 度 ， 达 到 一 个 甚至 多 个 块 的 大 小 。 如 果 存 在 填充 ， 它 通 
常 位 于 数据 区 后 面 ， 并 位 于 PPP FCS 字段 之 前 。 一 种 填充 方法 称 为 自 描述 填充 [RFC1570]， 
它 将 填充 值 变 为 非 零 值 。 这 时 ， 每 个 字 节 获 得 填充 区 域 的 偏 移 量 值 。 因 此 ， 填 充 的 第 一 个 字 
节 值 为 0x01， 最 后 一 个 字 节 包 含 填充 字 节 数 。 最 多 支持 255 字 节 的 填充 。 自 描述 填充 选项 
(类 型 10 ) 用 于 让 对 方 了 解 填充 类 型 和 最 大 填充 值 (MPV)， 它 是 这 个 关联 允许 的 最 大 填充 
值 。 由 于 基本 PPP 帧 缺少 一 个 明确 的 长 度 字 段 ， 因 此 一 个 接收 方 可 使 用 自 描述 填充 ， 以 确定 
应 从 接收 的 数据 区 删除 多 少 填充 字 节 。 

为 了 减 小 每 个 帧 包含 一 个 头 部 的 固定 开销 ， 提 出 了 一 种 将 多 个 不 同 协议 的 有 效 载荷 聚合 
成 PPP 帧 的 方法 ， 称 为 PPPMux [RFC3153] 方法 。 主 要 PPP 头 部 的 协议 字段 被 设置 为 聚合 
W (0x0059 )， 然 后 每 个 有 效 载荷 块 被 插入 帧 中 。 通 过 在 每 个 有 效 载荷 块 之 前 插入 1 ~ 4 字 
节 的 子 帧 头 部 来 实现 。 在 子 帧 头 部 中 ，!1 位 ( 称 为 PFF) 说 明子 帧 头 部 中 是 否 包 含 协议 字段 ， 
1 位 〈 称 为 LXT) 说 明 后 面 的 长 度 字 段 是 1 字 节 还 是 2 字 节 。 除 此 之 外 ，1 或 2 字 节 的 协议 
ID 使 用 与 外 部 的 PPP 头 部 相同 的 值 和 压缩 方法 。 在 子 帧 与 默认 PID (该 PID 在 配置 阶段 通 
过 PPPMux 控制 协议 (PPPMuxCP) 建立 ) 匹配 时 ，PFF 可 以 为 0 (意味 着 不 存在 PID FE). 

PPP 帧 格式 如 图 3-19 所 示 ， 普 通 PPP/HDLC 的 FCS 可 以 是 16 或 32 位 。 默 认 的 FCS 为 
16 位 ,但 32 位 的 FCS 值 可 通过 32 位 的 FCS 选项 来 启用 。 其 他 的 LCP 选项 包括 使 用 PFC 
Al ACFC， 以 及 认证 算法 的 选择 。 

国际 化 [RFC2484] 提供 了 一 种 使 用 语言 和 字符 集 的 表示 方式 。 字 符 集 是 一 个 来 自 “字符 
集注 册 表 ”[IANA-CHARSET] 的 标准 值 ， 并 从 [RFC5646] [RFC4647] 的 列表 中 选择 语言 。 


3.6.2 多 链 路 PPP 
PPP 的 一 个 特殊 版 本 称 为 多 链 路 PPP (MP) [RFC1990]， 可 用 于 将 多 条 点 到 点 链 路 聚合 
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为 一 条 链 路 。 这 种 想法 与 前 面 讨论 过 的 链 路 聚合 相似 ， 并 被 用 于 多 个 电路 交换 信道 〈 例 如 
ISDN B 信道 ) MRA. MP 包含 一 个 特殊 的 LCP 选项 ， 表 示 支 持 多 链 路 ， 以 及 一 个 用 于 多 
链 路 上 PPP 帧 分 片 与 重组 的 协商 协议 。 一 条 聚合 链 路 〈 称 为 一 个 捆绑 ) 可 作为 一 条 完整 的 虚 
拟 链 路 来 操作 ， 并 包含 自己 的 配置 信息 。 链 路 捆绑 由 大 量 成 员 链 路 组 成 。 每 个 成 员 链 路 可 能 
有 自己 的 选项 集 。 

实现 MP 的 典型 方法 是 使 分 组 轮流 经 过 各 个 成 员 链 路 传输 。 这 种 方法 称 为 银行 柜员 算 
法 ， 它 可 能 导致 分 组 重新 排序 ， 可 能 为 其 他 协议 带 来 不 良 的 性 能 影响 。( 例 如 ， 虽 然 TCP/ 
IP 可 以 正确 处 理 重 新 排序 后 的 分 组 ， 但 也 可 能 不 如 没有 重新 排序 处 理 得 好 。) MP 在 每 个 
分 组 中 添加 一 个 2 ~ 4 字 节 的 序列 头 部 ， 而 远程 MP 接收 方 的 任务 是 重建 正确 的 顺序 。 
图 3-25 显示 了 这 种 数据 帧 。 


PPP 分 组 > 
填充 











|( 如 果 存在 ， 用 0 ) 





D OF) daa? 4 或 (12 或 24 位 ) (可 变 ) 
字 节 8 位 ) N, 4 字 节 ) 





图 3-25 一 个 MP 分 片 包含 一 个 序列 头 部 ， 人 允许 在 一 个 多 链 路 捆绑 的 远 端 对 分 片 重新 排序 。 这 个 头 部 
支持 2 种 格式 : 短 头 部 (2 字 节 ) 和 长 头 部 (4 字 节 ) 


在 图 3-25 中 ， 我 们 看 到 一 个 MP 分 片 的 开始 分 片 (B)、 结 束 分 片 (E) 位 字段 和 序列 号 
字段 。 这 里 ， 需 要 注意 的 是 长 格式 (4 字 节 用 于 分 片 信息 ) 和 短 格式 (2 字 节 用 于 分 片 信息 )。 
在 选项 协商 阶段 ，LCP 的 短 序列 号 选项 (类 型 18 ) 用 于 选择 使 用 的 格式 。 如 果 一 个 帧 没有 被 
分 片 ， 但 使 用 这 种 格式 传输 ， 则 B 和 了 位 都 被 置 位 ， 表 明 该 分 片 是 第 一 个 和 最 后 一 个 〈 即 它 
是 整个 帧 ) 。 和 否则 ， 第 一 个 分 片 的 B、E 位 组 合 被 设置 为 10， 最 后 一 个 分 片 的 B、E 位 组 合 被 
设置 为 01， 它 们 之 间 的 所 有 分 片 被 设置 为 00。 序 列 号 给 出 相对 第 一 个 分 片 的 分 组 号 偏 移 量 。 

MP 使 用 一 个 称 为 多 链 路 最 大 接收 重 构 单 元 (MRRU， 类 型 18 ) 的 LCP 选项 ， 它 可 将 一 
系列 更 大 的 MRU 应 用 于 捆绑 中 。 大 于 成 员 链 路 MRU 的 帧 仍 被 允许 通过 这 个 MP 链 路 ， 直 
到 达到 这 个 值 的 上 限 为 止 。 

由 于 一 个 MP 捆绑 可 能 跨越 多 条 成 员 链 路 ， 因 此 需要 一 种 方法 来 确定 成 员 链 路 属于 同一 
捆绑 。 同 一 捆绑 中 的 成 员 链 路 由 LCP 端点 鉴别 (类 型 19 ) 选项 识别 。 端 点 鉴别 可 使 用 电话 
号 码 、 从 IP 或 MAC 地 址 中 提取 的 数字 ， 以 及 其 他 可 管理 的 字符 串 。 除 了 每 个 成 员 链 路 的 常 
见 内 容 ， 对 这 个 选项 的 格式 没有 多 少 限 制 。 

建立 MP 的 基本 方法 定义 在 [RFC1990] 中 ， 和 希望 各 个 成 员 链 路 可 对 称 使 用 ， 相 近 数 量 
的 分 片 被 分 配 到 号 码 固定 的 每 条 链 路 上 。 为 了 实现 更 复杂 的 分 配 ，[RFC2125] 中 规定 了 带 
宽 分 配 协议 (BAP) 和 带宽 分 配 控制 协议 (BACP)。BAP 用 于 为 一 个 捆绑 动态 添加 或 删除 链 
路 ， 而 BACP 用 于 交换 如 何 使 用 BAP 添加 或 删除 链 路 的 信息 。 这 种 功能 有 助 于 实现 按 需 带 
宽 (BOD). 在 一 些 需 要 分 配 固定 资源 以 满足 应 用 (例如 一 定数 量 的 电话 连接 ) 对 带宽 需求 的 
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网 络 中 ，BOD 通常 需要 监测 流量 ， 在 应 用 需求 高 时 创建 新 的 连接 ， 以 及 在 应 用 需求 低 时 删 
除 连 接 。 在 某 些 开 销 和 连接 数量 相关 的 情况 下 ， 这 种 功能 是 有 用 的 。 

BAP/BACP 使 用 一 种 新 的 链 路 鉴别 LCP 选项 (LCP 选项 类 型 为 23 )。 这 个 选项 包含 一 
个 16 位 的 数字 值 ， 一 个 捆绑 中 的 每 条 成 员 链 路 有 不 同 的 值 。 它 被 BAP 用 于 确定 需要 添加 或 
删除 哪些 链 路 。 在 一 条 PPP 链 路 的 网 络 阶段 ， 每 个 捆绑 都 需要 使 用 BACP 协商 。 它 的 主要 目 
的 是 找 出 首选 对 端 。 也 就 是 说 ， 如 果 在 多 个 对 端 之 间 同 时 建立 多 个 捆绑 时 ， 将 会 优先 为 首选 
对 端 分 配 成 员 链 路 。 

BAP 包括 3 种 分 组 类 型 : 请 求 、 响 应 和 标识 。 请 求 用 于 向 一 个 捆绑 添加 一 条 链 路 ， 或 从 

一 个 捆绑 中 删除 一 条 链 路 。 标 识 用 于 为 原始 或 被 确认 的 请 求 返 回 结果 。 响 应 是 对 这 些 请 求 的 

ACK 或 NACK。 更 多 细节 见 [RFC2125]. 


3.6.3 ”压缩 控制 协议 


从 历史 上 来 看 ，PPP 是 相对 较 慢 的 拨号 调制 解 调 器 使 用 的 协议 。 因 此 ， 针 对 PPP 链 路 上 
压缩 后 发 送 数据 已 提出 一 些 方法 。 压 缩 类 型 是 不 同 的 ， 无 论 是 调制 解 调 器 硬件 支持 的 压缩 类 
型 (例如 V42bis、V.44 )， 还 是 我 们 以 后 讨论 的 协议 头 部 压缩 。 目 前 ， 有 几 个 压缩 选项 可 选 。 
可 在 一 条 PPP 链 路 的 两 个 方向 做 出 选择 , LCP 可 协商 一 个 使 压缩 控制 协议 (CCP) [RFC1962] 
生效 的 选项 。CCP 的 作用 就 像 NCP ( 见 3.6.5 节 )， 只 不 过 在 LCP 链 路 建立 交换 阶段 指明 压 
缩 选项 时 才 开 始 处 理 配置 压缩 细节 。 

CCP 在 行为 上 很 像 NCP， 仅 在 链 路 进入 网 络 状态 时 协商 。 它 使 用 与 LCP 相同 的 分 组 交 
换 过 程 和 格式 〈 除 协议 字段 被 设置 为 0x80FD 之 外 )， 另 外 还 有 一 些 特殊 选项 ， 并 对 常见 的 代 
码 字 段 值 (1 ~ 7) 定义 了 2 个 新 的 操作 : 复位 请 求 (0x0e) 和 复位 确认 (0x0f)。 如 果 在 一 
个 压缩 帧 中 检测 到 一 个 错误 ， 复 位 请 求 可 用 于 要 求 对 方 复位 压缩 状态 〈 例 如 字典 、 状 态 变 量 、 
状态 机 等 )。 在 复位 后 ， 对 方 响应 一 个 复位 确认 。 

一 个 或 多 个 压缩 帧 可 作为 一 个 PPP 帧 的 一 部 分 ( 即 包括 LCP 数据 和 可 能 的 填充 部 分 )。 
压缩 帧 携带 的 协议 字段 值 为 0x00FD， 但 是 如 何 指明 存在 多 个 压缩 帧 ， 这 依赖 于 使 用 的 特定 
压缩 算法 〈 见 3.6.6 节 )。 当 CCP 与 MP 结合 使 用 时 ， 既 可 用 于 一 个 捆绑 ， 也 可 用 于 多 条 成 员 
链 路 的 某 些 组 合 。 如 果 只 用 于 成 员 链 路 ， 协 议 字 段 设 置 为 0x00FB (单个 的 链 路 压缩 数据 报 )。 

CCP 可 使 用 十 几 个 压缩 算法 之 一 [PPPn]。 大 多 数 算法 不 是 官方 标准 的 IETF 文档 ， 虽 然 
它们 可 能 已 在 RFC 中 加 以 描述 (例如 ，[RFC1977] 描述 了 BSD 压缩 方案 ，[RFC2118] 描述 
了 Microsoft 点 对 点 压缩 协议 (MPPC))。 如 果 使 用 压缩 , PPP 帧 在 进一步 处 理 之 前 需要 重 构 ， 
因此 高 层 的 PPP 操作 通常 不 关心 压缩 帧 的 细节 。 ; 


3.6.4 PPP 认证 


在 一 条 PPP 链 路 处 于 网 络 状 态 之 前 ， 通 常 有 必要 使 用 某 种 认证 (身份 验证 ) 机 制 ， 以 识 
别 建立 链 路 的 对 方 身份 。 基 本 的 PPP 规范 默认 不 提供 认证 ， 因 此 图 3-24 中 的 认证 交换 在 这 
种 情况 下 不 会 出 现 。 但 是 ， 某 种 形式 的 认证 在 多 数 时 候 是 需要 的 ， 一 些 经 过 多 年 演变 的 协 
议 被 用 于 应 对 这 种 情况 。 在 本 章 中 ,我 们 仅 从 高 层 的 角度 展开 讨论 ， 并 将 细节 留 给 关于 安 
全 的 章节 (第 18 章 )。 与 不 提供 认证 相 比 ， 最 简单 、 安 全 性 最 低 的 认证 方案 是 密码 认证 协议 
( PAP)。 这 种 协议 非常 简单 ， 一 方 请 求 男 一 方 发 送 一 个 密码 。 由 于 该 密码 在 PPP 链 路 上 未 加 
密 传输 ， 窃 听 者 在 线路 上 可 轻易 捕获 密码 并 使 用 它 。 由 于 这 个 重大 的 漏洞 ， 不 建议 使 用 PAP 
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进行 认证 。PAP 分 组 像 LCP 分 组 那样 编码 ， 协 议 字段 值 设置 为 0xC023。 

查询 - 握手 认证 协议 (CHAP) [RFC1994] 提供 了 一 种 更 安全 的 认证 方法 。 在 使 用 CHAP 
时 ,一 个 随机 值 从 一 方 ( 称 为 认证 方 ) 发 送 到 另 一 方 。 响 应 通过 一 种 特殊 的 单 向 ( 即 不 可 道 ) 
功能 ， 将 一 个 随机 值 和 一 个 共享 密 钥 (通常 由 密码 生成 ) 结合 形成 响应 中 的 一 个 数字 。 在 接 
收 到 这 个 响应 之 后 ， 认 证 方 能 更 可 靠 地 验证 对 方 密 钥 是 否 正确 。 这 个 协议 在 链 路 上 不 会 以 明 
文 (未 加 密 ) 形式 发 送 密 钥 或 密码 ， 因 此 窃听 者 难以 了 解 相 关 信 息 。 由 于 每 次 使 用 不 同 的 随 
机 值 ， 每 个 查询 / 响应 的 结果 会 改变 ， 即 使 一 个 窃听 者 有 可 能 捕捉 到 这 个 值 ， 也 无 法 通过 重 
新 使 用 (回放 ) 来 欺骗 对 方 。 

EAP [RFC3748] 是 一 个 可 用 于 各 种 网 络 的 认证 框架 。 它 支持 很 多 ( 约 40 个 ) 不 同 的 认 
证 方法 ， 从 简单 密码 (例如 PAP Al CHAP) 到 更 可 靠 的 认证 类 型 (例如 智能 卡 、 生 物 识 别 )。 
EAP 定义 了 一 种 携带 各 种 认证 的 消息 格式 ,但 需要 额外 的 规范 定义 EAP 消息 如 何在 特定 的 
链 路 上 传输 。 

当 EAP 被 用 于 PPP 时 ， 前 面 讨 论 过 的 基本 认证 方法 不 变 。EAP 不 是 在 链 路 建立 (LCP 
建立 ) 阶段 协商 一 种 认证 方法 ， 认 证 操作 将 被 推迟 到 认证 状态 (网 络 状态 的 前 一 个 状态 )。 这 
允许 更 多 信息 类 型 用 于 影响 远程 访问 服务 器 ( RAS) 的 访问 控制 决策 。 当 某 种 标准 的 协议 用 
于 执行 各 种 认证 机 制 ， 网 络 访问 服务 器 可 能 无 须 处 理 EAP HAA, 但 可 依靠 其 他 基础 设 
施 的 认证 服务 器 (例如 RADIUS 服务 器 [RFC2865]) 确定 访问 控制 决策 。 这 是 当前 的 企业 网 
Al ISP 设计 中 的 首选 方案 。 


3.6.5 网络 控制 协议 


虽然 多 种 NCP 可 用 于 一 条 了 PPP 链 路 (甚至 同时 )， 但 我 们 将 关注 支持 IPv4 和 1IPv6 的 
NCP. Xt IPv4, NCP 被 称 为 IP 控制 协议 (IPCP) [RFC1332]。 对 于 IPv6，NCP 被 称 为 
IPV6CP [RFC5072]。 在 LCP 完成 链 路 建立 和 认证 之 后 ， 该 链 路 每 端 都 进入 网 络 状 态 ， 并 使 
用 一 个 或 多 个 NCP (例如 典型 的 是 一 个 IPCP) 进行 网 络 层 的 相关 协商 。 

IPCP (针对 IPv4 的 标准 NCP) 可 用 于 在 一 条 链 路 上 建立 IPv4 连接 ， 以 及 配置 Van 
Jacobson 头 部 压缩 ( VJ 压缩 ) [RFC1144]。IPCP 分 组 在 PPP 状态 机 进入 网 络 状态 之 后 交换 。 
IPCP 分 组 使 用 与 LCP 相同 的 分 组 交换 机 制 和 分 组 格式 ， 除 非 协 议 字段 被 设置 为 0x8021， 并 
且 代 码 字段 被 限制 在 范围 0 ~ 7。 代 码 字段 的 值 对 应 于 消息 类 型 : 特定 供应 商 ( 见 [RFC2153])、 
配置 请 求 、 配 置 ACK、 配 置 REJECT、 终 止 请 求 、 终 止 ACK 和 代码 REJECT, IPCP 可 协商 
一 系列 选项 ， 包 括 IP 压缩 协议 (2)、IPv4 地 址 (3 ) 和 移动 IPv4 (4) [RFC2290]。 其 他 选 
项 可 用 于 获得 主要 和 次 要 的 域名 服务 器 ( 见 第 11 章 )。 

IPV6CP 使 用 与 LCP 相同 的 分 组 交换 机 制 和 分 组 格式 ， 但 它 有 两 种 不 同 的 选择 : 接口 标 
识 符 和 IPv6 压缩 协议 。 接 口 标识 符 选项 用 于 传输 一 个 64 位 的 ID 值 ( 见 第 2 章 )， 它 作为 形 
成 一 个 链 路 本 地 IPv6 地 址 的 基础 。 由 于 它 仅 在 本 地 链 路 上 使 用 ， 因 此 不 需要 具有 全 球 唯一 
性 。 这 通过 在 IPv6 地 址 的 高 位 使 用 标准 链 路 本 地 前 级， 在 低位 设置 某 种 功能 的 接口 标识 符 
来 实现 。 这 里 模拟 了 IPv6 自动 配置 过 程 ( 见 第 6 章 )。 


3.6.6” 头 部 压缩 


PPP 拨号 线路 的 速率 一 直 较 慢 ( 54 000b/s 或 更 少 )， 很 多 小 的 分 组 通常 使 用 TCP/IP ( 例 
如 TCP 确认 ， 见 第 15 章 )。 这 些 分 组 大 部 分 包含 TCP Al IP 头 部 ， 同 一 TCP 连接 上 的 分 组 
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之 间 变 化 不 大 。 其 他 高 层 协议 的 行为 相似 。 因 此 ， 压 缩 (或 消除 ) 高 层 协议 头 部 是 一 种 有 用 
的 方法 ， 这 样 以 来 就 可 在 相对 较 慢 的 点 到 点 链 路 上 传输 更 少 字 节 。 现 代 的 压缩 或 消除 头 部 方 
法 一 直 在 随 着 时 间 演 变 。 我 们 将 从 前 面 提 到 的 VJ 压缩 开始 ， 按 时 间 顺 序 讨论 它们 。 

在 VJ 压缩 中 ， 部 分 高 层 (TCP MIP) 头 部 被 1 字 节 的 连接 标识 符 代替 。[RFC1144] if 
论 了 这 种 方法 的 起 源 ， 它 最 初 来 源 于 一 种 旧 的 、 称 为 CSLIP (压缩 串 行 线 路 全) 的 点 到 点 协 
议 。 一 个 典型 IPv4 头 部 的 长 度 是 20 字 节 ， 一 个 没有 选项 的 TCP 头 部 的 长 度 也 是 20 FH. 
因此 ， 一 个 常见 的 TCP/IPv4 头 部 组 合 是 40 字 节 ， 并 且 很 多 字段 在 分 组 间 没 有 变化 。 另 外 ， 
很 多 字段 在 分 组 间 只 有 很 小 或 有 限 的 变化 。 如 果 不 变 的 值 通过 一 条 链 路 (或 一 段 时 间 内 ) 传 
输 并 被 保存 在 一 张 表 中 ， 则 在 后 续 分 组 中 可 用 一 个 小 的 索引 代替 该 值 。 变 化 有 限 的 值 可 以 仅 
编码 差异 部 分 ( 即 仅 发 送 变化 的 部 分 )。 因 此 ， 整 个 40 字 节 头 部 通常 可 有 效 压缩 到 3 或 4 字 
节 。 这 样 可 显著 提高 在 低速 链 路 上 的 TCP/IP 性 能 。 

头 部 压缩 的 下 一 步 演化 简称 为 IP 头 部 压缩 [RFC2507] [RFC3544]。 它 提供 了 一 种 压缩 
多 个 分 组 头 部 的 方式 ,使 用 TCP 或 UDP 传输 层 协议 ， 以 及 IPv4 或 IPv6 网 络 层 协议 。 这 种 
技术 是 VJ 压缩 技术 的 一 种 逻辑 上 的 扩展 ， 可 用 于 多 种 协议 以 及 PPP 链 路 之 外 的 其 他 链 路 。 
[RFC2507] 指出 了 底层 链 路 层 的 一 些 强大 的 差错 检测 机 制 的 必要 性 ， 因 为 ， 如 果 压 缩 头 部 在 
运输 过 程 中 损坏 ， 出 错 的 分 组 可 在 离开 链 路 层 时 被 构造 。 我 们 需要 认识 到 ， 当 头 部 压缩 用 于 
链 路 上 时 ， 可 能 不 会 像 PPP 的 FCS 计算 那样 强大 。 

头 部 压缩 的 最 新 改进 方案 称 为 鲁 棒 性 头 部 压缩 (ROHC) [RFC5225]。 它 进一步 改进 了 
IP 头 部 压缩 以 涵盖 更 多 的 传输 协议 ， 并 允许 同时 处 理 多 种 头 部 压缩 方式 。 前 面 提 到 的 IP 头 
部 压缩 可 适用 于 不 同类 型 的 链 路 ， 包 括 PPP. 


3.6.7 例子 


我 们 查看 一 台 PPP 服务 器 的 调试 输出 ， 它 通过 拨号 的 调制 解 调 器 与 客户 机 交互 。 客 户 机 
是 一 台 有 IPv6 功能 的 运行 Microsoft Windows Vista 的 计算 机 ， 服 务 器 是 一 台 运 行 Linux 的 计 
算 机 。 客 户 机 配置 为 可 在 单一 链 路 上 协商 多 链 路 功能 (属性 | 选项 | PPP 设置 )， 出 于 演示 目 
的 ， 服 务 器 配置 为 使 用 CCP 协商 加 密 协 议 〈 见 以 下 代码 清单 中 的 MPPE): 


data dev=ttyS0, pid=28280, caller='none', conn='38400', 
name='',cmd='/usr/sbin/pppd', user='/AutoPPP/' 

pppd 2.4.4 started by a_ppp, uid 0 

using channel 54 

Using interface ppp0 

PPP0 <--> /dev/ttyso 

sent [LCP ConfReq id=0xl <asyncmap 0x0> <auth eap> 
<magic Oxa5ccc449><pcomp> <accomp> ] 

rcvd [LCP ConfNak id=0xl <auth chap MS-v2>] 

sent [LCP ConfReq id=0x2 <asyncmap 0x0> <auth chap MS-v2> 
<magic O0xa5ccc449><pcomp> <accomp>] 

rcvd [LCP ConfAck id=0x2 <asyncmap 0x0> <auth chap MS-v2> 
<magic 0xa5ccc449><pcomp> <accomp> ] 

rcvd [LCP ConfReq id=0x2 <asyncmap 0x0> <magic 0xa531le06> 
<pcomp> <accomp><callback CBCP> <mrru 1614> 
<endpoint [local:12.92.67.ef.2f.fe.44.6e.84.f8. 

c9.3f.5f.8c.5c.41.00.00.00.00]>] 

sent [LCP ConfRej id=0x2 <callback CBCP> <mrru 1614>] 

rcvd [LCP ConfReq id=0x3 <asyncmap 0x0> <magic 0xa531le06> 
<pcomp> <accomp> 
<endpoint [local:12.92.67.ef.2f.fe.44.6e.84.f8. 
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c9.3£.5£.8c.5c.41.00.00.00.00]>] 
sent [LCP ConfAck id=0x3 <asyncmap 0x0> <magic 0xa531le06> 
<pcomp> <accomp> 
<endpoint [local:12.92.67.ef.2f.fe.44.6e.84.£8. 
c9.3£.5f.8c.5c.41.00.00.00.00]>] 
sent [CHAP Challenge id=0xla <4d53c52b8e7dcfe7a9ea438b2b4daf55>, 
name = "dialer" ] 
rcvd [LCP Ident id=0x4 magic=0xa531e06 "MSRASV5.20"] 
rcvd [LCP Ident id=0x5 magic=0xa531le06 "MSRAS-0-VISTA" ] 
revd [CHAP Response id=0xla 
<4b5dc95ed4e1788b959025de0233d4£c0000000 
00000000033a555d2a77bd1lfa692f2a0af707cd 4£0c0072c379c82e0f00>, 
name = "dialer"] 
sent [CHAP Success id=0xla 
"S=7E0B6B513215C87520BEF6725EF8A9945C28E918M=Access granted" ] 
sent [CCP ConfReq id=0xl <mppe +H -M +S +L -D -C>] 
rcvd [IPV6CP ConfReq id=0x6 <addr fe80::0000:0000:dead:beef>] 
sent [IPV6CP TermAck id=0x6] 
rcvd [CCP ConfReq id=0x7 <mppe -H -M -S -L -D +C>] 
sent [CCP ConfNak id=0x7 <mppe +H -M +S +L -D -C>] 
rcvd [IPCP ConfReq id=0x8 <compress VJ Of 01> <addr 0.0.0.0> 
<ms-dns1 0.0.0.0> <ms-wins 0.0.0.0> <ms-dns3 0.0.0.0> 
<ms-wins 0.0.0.0>] 
sent [IPCP TermAck id=0x8] 
revd [CCP ConfNak id=0xl <mppe -H -M +S -L -D -C>] 
sent [CCP ConfReq id=0x2 <mppe -H -M +S -L -D -C>] 
rcvd [CCP ConfReq id=0x9 <mppe -H -M +S -L -D -C>] 
sent [CCP ConfAck id=0x9 <mppe -H -M +S -L -D -C>] 
revd [CCP ConfAck id=0x2 <mppe -H -M +S -L -D -C>] 
MPPE 128-bit stateful compression enabled 
sent [IPCP ConfReq id=0xl <compress VJ Of 01> <addr 192.168.0.1>] 
sent [IPV6CP ConfReq id=0xl <addr fe80::0206:5bff:fedd:c5c3>] 
rcvd [IPCP ConfAck id=0xl <compress VJ Of 01> <addr 192.168.0.1>] 
rcvd [IPV6CP ConfAck id=0xl <addr fe80::0206:5bff:fedd:c5c3>] 
revd [IPCP ConfReq id=0xa <compress VJ Of 01> 
<addr 0.0.0.0> <ms-dnsl 0.0.0.0> 
<ms-wins 0.0.0.0> <ms-dns3 0.0.0.0> <ms-wins 0.0.0.0>] 
sent [IPCP ConfRej id=0xa <ms-wins 0.0.0.0> <ms-wins 0.0.0.0>] 
rcvd [IPV6CP ConfReq id=0xb <addr fe80::0000:0000:dead:beef>] 
sent [IPV6CP ConfAck id=0xb <addr fe80::0000:0000:dead:beef>] 
rcvd [IPCP ConfAck id=0xl <compress VJ Of 01> <addr 192.168.0.1>] 
rcvd [IPV6CP ConfAck id=0xl <addr fe80::0206:5bff:fedd:c5c3>] 
local LL address fe80::0206:5bff:fedd:c5c3 
remote LL address fe80::0000:0000:dead: beef 
rcvd [IPCP ConfReq id=0xc <compress VJ 0f 01> 
<addr 0.0.0.0> <ms-dnsl 0.0.0.0> <ms-dns3 0.0.0.0>] 
sent [IPCP ConfNak id=0xc <addr 192.168.0.2> <ms-dnsl 192.168.0.1> 
<ms-dns3 192.168.0.1>] 
sent [IPCP ConfAck id=0xd <compress VJ 0f 01> <addr 192.168.0.2> 
<ms-dnsl 192.168.0.1> <ms-dns3 192.168.0.1>] 
local IP address 192.168.0.1 
remote IP address 192.168.0.2 
eo Gata oo. 


这 里 ， 我 们 可 看 到 一 些 涉及 PPP 的 交换 ， 它 是 从 服务 器 的 角度 来 看 的 。PPP 服务 器 进 
程 创建 的 (虚拟 ) 网 络 接口 为 ppp0， 它 在 连接 串 行 端口 tty8S0 的 拨号 调制 解 调 器 上 等 待 连 
接 请 求 ( 称 为 “输入 连接 ” )。 当 有 连接 请 求 到 达 时 ， 服 务 器 依次 发 送 0x0 的 异步 控制 字符 
映射 (asyncmap)、EAP 认证 、PFC AI ACFC 请 求 。 客 户 拒绝 EAP 认证 ， 并 建议 使 用 MS- 
CHAP-v2 ( ConfNak) [RFC2759]。 服 务 器 再 次 尝试 发 送 请 求 ， 并 使 用 MS-CHAP-v2， 这 次 
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请 求 被 接受 和 确认 ( ConfAck)。 接 下 来 ,“ 输 入 ”请 求 包 括 CBCP， 一 个 与 MP 支持 相关 的 
1614 字 节 的 MRRU， 以 及 一 个 端点 ID。 服务 器 拒绝 CBCP 和 多 链 路 操作 《〈ConfRej) 请 求 。 
客户 机 发 送 不 带 MRRU 的 端点 鉴别 请 求 ， 并 被 接收 和 确认 。 下 一 步 ， 服 务 器 发 送 一 个 名 为 
dialer 的 CHAP 查询 。 在 该 查询 的 响应 到 达 之 前 ， 两 个 标识 消息 到 达 ， 表 明 对 方 以 字符 串 
MSRASV5.20 和 MSRAS-0-VISTA 来 标识 。 最 后 ，CHAP 响应 到 达 并 验证 通过 ， 表 明 许 可 访 
问 。 这 时 ，PPP 转换 为 网 络 状态 。 

当 进 入 网 络 状 态 时 ，CCP、IPCP 和 IPV6CP NCP 被 交换 。CCP 尝试 协商 微软 点 对 点 加 
密 (MPPE)[RFC3078].MPPE 有 些 不 同 之 处 ， 因 为 它 是 一 种 加 和 密 协 议 ， 而 不 是 一 种 压缩 协议 ， 
它 实 际 将 分 组 扩大 了 4 字 节 。 但 是 ， 它 提供 了 一 个 相对 简单 的 方法 ， 早 在 协商 过 程 中 就 完成 
了 加 密 。 选 项 +H-M+S+L-D-C 表 明 MPPE 是否 采 用 无 状态 操作 ( 百 )、 使 用 哪 种 加 密 
密 钥 强度 (ZE, S; HPE, M; 低 ，L)、 是 和 否 存 在 过 时 的 D 位 ， 以 及 是 否 需 要 单独 、 专 用 
的 MPPC 的 压缩 协议 (C) [RFC2118]。 最 终 ， 双 方 同 意 在 有 状态 模式 下 使 用 强大 的 128 位 密 
钥 (- H, +S), È, 在 这 次 协商 过 程 中 ， 客 户 机 尝试 发 送 一 个 IPCP 请 求 ， 但 服务 器 响应 
的 是 一 个 主动 的 TermAck (一 个 LCP 定义 、ICPC 采纳 的 消息 )。 它 用 于 向 对 方 指出 服务 器 
“需要 重新 谈判 ”[RFC1661]。 

在 MPPE 协商 成 功 之 后 ， 服 务 器 请 求 使 用 VJ 头 部 压缩 ， 并 提供 它 的 IPv4 地 址 和 IPv6 
地 址 ， 分 别 为 192.168.0.1 和 fe80::0206:5bff:fedd:c5c3。 这 个 IPv6 地 址 是 从 服务 器 的 以 太 网 
MAC 地 址 00:06:5B:DD:C5:C3 而 来 。 客 户 机 最 初 使 用 IPCP 建议 的 IPv4 地 址 和 域名 服务 器 
0.0.0.0， 但 被 拒绝 。 客 户 机 请 求 使 用 fe80::0000:0000:dead:beef 作为 IPv6 地 址 ， 这 个 请 求 被 
接受 和 确认 。 最 后 ， 客 户 机 确认 服务 器 的 IPv4 和 IPv6 地 址 ， 并 且 表 明 自 己 已 建立 IPv6 地 
址 。 接 着 ， 客 户 机 再 次 请 求 IPv4 和 服务 器 地 址 0.0.0.0， 再 次 被 拒绝 。192.168.0.1 被 接受 和 
确认 。 

我 们 从 这 次 交换 中 可 看 到 ，PPP 协商 是 既 灵 活 又 烦琐 的 。 很 多 选项 可 以 尝试 、 拒 绝 和 重 
新 协商 。 虽 然 在 低 延 时 链 路 上 这 可 能 不 是 一 个 大 问题 ， 但 这 种 交换 中 的 每 个 消息 都 需要 花费 
几 秒 (或 更 长 ) 到 达 目 的 地 。 如 果 在 一 条 卫星 链 路 上 ， 则 可 能 出 现 很 大 的 超时 。 对 用 户 来 说 ， 
链 路 建立 明显 是 一 个 太 长 的 过 程 。 


3.7 环 回 


尽管 可 能 看 起 来 很 奇怪 ,但 在 很 多 情况 下 ， 客 户 机 可 能 希望 使 用 Internet 协议 (例如 
TCP/IP) 与 同一 计算 机 上 的 服务 器 通信 。 为 了 实现 这 个 目标 ， 大 多 数 实现 支持 一 种 工作 在 网 
络 层 的 环 回 〈 或 称 “ 回 送 ”) 能 力 一 一 通常 使 用 一 个 虚拟 的 环 回 网 络 接口 来 实现 。 它 就 像 一 个 
真正 的 网 络 接 口 ， 但 实际 上 是 一 个 由 操作 系统 提供 的 专用 软件 ， 可 通过 TCP/IP 与 同一 主机 
的 其 他 部 分 通信 。 以 127 开始 的 IPv4 地 址 就 是 为 这 个 目的 而 保留 ，IPv6 地 址 ::1 ( 见 第 2 章 
的 IPv4 和 IPv6 寻 址 约定 ) 用 于 同样 目的 。 传 统 上 ， 类 UNIX 系统 (包括 Linux) 为 环 回 接口 
分 配 的 IPv4 地 址 为 127.0.0.1 (IPv6 地 址 为 :1 )， 为 它 分 配 的 名 称 为 localhost。 发 送 到 环 回 接 
口 的 IP 数 据 报 不 会 出 现在 任何 网 络 中 。 尽 管 我 们 可 以 想象 传输 层 检 测 到 另 一 端 是 一 个 环 回 
地 址 ， 并 跳 过 某 些 传输 层 逻 辑 和 所 有 网 络 层 逻辑 ， 但 大 多 数 的 实现 在 传输 层 和 网 络 层 对 数据 
执行 完整 的 处 理 流程 ， 并 仅 在 数据 报 离开 网 络 层 时 将 其 回 送 给 网 络 层 协议 栈 。 这 种 处 理 对 于 
性 能 测试 可 能 有 用 ， 例 如 在 没有 任何 硬件 开销 的 情况 下 ， 测 量 执行 协议 栈 软件 所 需 的 时 间 。 
在 Linux 中 ， 环 回 接口 被 称 为 lo。 
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Linux% ifconfig lo 
lo Link encap:Local Loopback 
inet addr:127.0.0.1 Mask:255.0.0.0 
inet6 addr: ::1/128 Scope:Host 
UP LOOPBACK RUNNING MTU:16436 Metric:1 
RX packets:458511 errors:0 dropped:0 overruns:0 frame:0 
TX packets:458511 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:266049199 (253.7 MiB) 
TX bytes:266049199 (253.7 MiB) 


这 里 ,我 们 看 到 本 地 环 回 接口 的 IPv4 地 址 为 127.0.0.1， 子 网 掩 码 为 255.0.0.0 (对 应 于 
分 级 寻 址 中 的 A 类 网 络 号 127 )。IPv6 地 址 ::1 有 一 个 128 位 的 前 缀 ， 它 表示 只 有 一 个 地 址 。 
这 个 接口 支持 16KB 的 MTU (可 配置 为 更 大 尺寸 ， 最 大 可 达 2GB)。 从 主机 在 两 个 月 前 初始 
化 开始 ,巨大 的 流量 (接近 50 万 个 分 组 ) 无 差错 地 通过 该 接口 。 我 们 不 希望 在 本 地 环 回 设备 
上 看 到 错误 ， 假 设 它 实际 上 没有 在 任何 网 络 上 发 送 分 组 。 

在 Windows 中 ， 上 默认 情 况 下 没 安装 Microsoft 环 回 适配器 ， 尽 管 这 样 仍 支持 I 人 P 环 回 
功能 。 这 个 适配器 可 用 于 测试 各 种 网 络 配 置 ， 其 至 在 一 个 物理 网 络 接口 不 可 用 的 情况 下 。 
在 Windows XP 下 安装 该 适配器 ， 可 选择 “开始 | 控制 面板 | 添加 硬件 | 从 列表 中 选择 网 络 
适配器 | 选择 Microsoft 作为 制造 商 | 选 择 Microsoft 环 回 适配器 ”。 对 于 Windows Vista 或 
Windows 7， 在 命令 提示 符 下 运行 程序 hdwwiz， 并 手动 添加 Microsoft 环 回 适配器 。 在 执行 

上 述 操作 后 ，ipconfig 命令 显示 如 下 (这 个 例子 来 自 Windows Vista 环境 ): 

C:\> ipconfig /all 


Ethernet adapter Local Area Connection 2: 
Connection-specific DNS Suffix . : 


Deseriptiion.“. «es we ie a es : Microsoft Loopback Adapter 
Physical Address. . ss «ss © 6 : 02-00-4C-4F-4F-50 

DHCP Bnabled. © > è 2 en « «Js Yes 

Autoconfiguration Enabled... . : Yes 

Link-local IPv6 Address .....: 


£e80::9c0d:77a:52b8: So 
Autoconfiguration IPv4 Address. . : 169.254.57.240(Preferred) 


Subnet Mask... = æ « «© w o v e 2 2552993040 
Default Gateway = > © 5 2 ss © = 8 

DHCPV6 TAID © gan es a % @ « a ow  30ZTZTO36 

DNS Servers) c eve w sws w wo a a LOGON Efe 2131 


fec0:0:0:ffff::2%1 
fec0:0:0:ffff::3%1 
NetBIOS over Tcpip. ..... .. : Enabled 


这 里 ， 我 们 可 看 到 该 接口 已 被 创建 ， 分 配 了 IPv4 和 IPv6 地 址 ， 并 显示 为 一 系列 的 虚拟 
以 太 网 设备 。 现 在 ， 这 台 计 算 机 具有 以 下 环 回 地 址 : 


C:\> ping 127.1.2.3 
Pinging 127.1.2.3 with 32 bytes of data: 
Reply from 127.1.2.3: bytes=32 time<lms TTL=128 
Reply from 127.1.2.3: bytes=32 time<lms TTL=128 
Reply from 127.1.2.3: bytes=32 time<lms TTL=128 
Reply from 127.1.2.3: bytes=32 time<lms TTL=128 
Ping statistics for 127.1.2.3: 
Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), 
Approximate round trip times in milli-seconds: 
Minimum = Oms, Maximum = Oms, Average = 0ms 


C:\> ping ::1 
Pinging ::1 from ::1 with 32 bytes of data: 
Reply from ::1: time<lms 
Reply from ::1: time<lms 
Reply from ::1: time<ims 
Reply from ::1: time<lms 
Ping statistics for ::1: 
Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), 
Approximate round trip times in milli-seconds: 


Minimum = Oms, Maximum = Oms, Average = Oms 


C:\> ping 169.254.57.240 
Pinging 169.254.57.240127.1.2.3 with 32 bytes of data: 
Reply from 169.254.57.240: bytes=32 time<lms TTL=128 
Reply from 169.254.57.240: bytes=32 time<lms TTL=128 
Reply from 169.254.57.240: bytes=32 time<lms TTL=128 
Reply from 169.254.57.240: bytes=32 time<lms TTL=128 
Ping statistics for 169.254.57.240: 
Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), 
Approximate round trip times in milli-seconds: 

Minimum = Oms, Maximum = Oms, Average = Oms 


我 们 可 以 看 到 ，IPv4 中 以 127 开始 的 目的 地 址 被 环 回 。 但是， 对 于 IPv6， 只 有 地 址 ::1 
被 定义 用 于 环 回 操作 。 我 们 还 可 以 看 到 ， 地 址 为 169.254.57.240 的 环 回 适配器 如 何 立 即 返 
回 数据 。 我 们 将 在 第 9 章 讨论 组 播 或 广播 数据 报 是 否 被 复制 并 返回 给 发 送 主机 (通过 环 回 接 
口 )。 每 个 应 用 程序 都 可 做 出 这 种 选择 。 


3.8 MTU 和 路 径 MTU 


我 们 可 以 从 图 3-3 中 看 到 ， 在 很 多 链 路 层 网 络 (例如 以 太 网 ) 中 ， 携 带 高 层 协议 PDU 的 
帧 大 小 是 有 限制 的 。 以 太 网 有 效 载荷 的 字 节 数 通 常 被 限制 为 1500，PPP 通常 采用 相同 大 小 以 
保持 与 以 太 网 兼容 。 链 路 层 的 这 种 特征 被 称 为 最 大 传输 单元 (MTU)。 大 多 数 的 分 组 网 络 〈 例 
WARR) 都 有 固定 的 上 限 。 大 多 数 的 流 类 型 网 络 〈 串 行 链 路 ) 提供 可 设置 的 上 限 ， 它 可 被 
帧 协议 (例如 PPP) 所 使 用 。 如 果 IP 需要 发 送 一 个 数据 报 ， 并 且 这 个 数据 报 比 链 路 层 MTU 
大 ， 则 IP 通过 分 片 将 数据 报 分 解 成 较 小 的 部 分 ， 使 每 个 分 片 都 小 于 MTU。 我 们 将 在 第 5 章 
和 第 10 章 讨论 IP 分 片 。 

当 同 一 网 络 中 的 两 台 主 机 之 间 通 信 时 ， 本 地 链 路 的 MTU 在 会 话 期 间 对 数据 报 大 小 有 直 
接 影 响 。 当 两 台 主 机 之 间 跨 越 多 个 网 络 通信 时 ， 每 条 链 路 可 能 有 不 同 大 小 的 MTU。 在 包含 
所 有 链 路 的 整个 网 络 路 径 上 ， 最 小 的 MTU 称 为 路 径 MTU。 

任何 两 台 主 机 之 间 的 路 径 MTU 不 会 永远 不 变 ， 这 取决 于 当时 使 用 的 路 径 。 如 果 网 络 中 
的 路 由 器 或 链 路 故障 ，MTU 可 能 改变 。 另 外 ， 路 径 通 常 不 对 称 (主机 A 到 B 路 径 可 能 不 是 
B 到 A 的 反 向 路 径 )， 路 径 MTU 不 需要 在 两 个 方向 上 相同 。 

[RFC1191] 规定 了 IPv4 路 径 MTU 发 现 (PMTUD) 机 制 ，[RFC1981] 描述 了 用 于 IPv6 
的 相应 机 制 。[RFC4821] 描述 了 一 个 补充 方案 ， 以 解决 这 些 机 制 中 的 一 些 问 题 。PMTUD 用 
于 确定 某 个 时 间 的 路 径 MTU， 它 在 IPv6 实现 中 是 需要 的 。 在 后 面 的 章节 中 ， 针 对 前 面 描述 
A ICMP 和 IP 分 片 ,我 们 将 观察 这 个 机 制 如 何 运行 。 我 们 在 讨论 TCP 和 UDP 时 ， 也 会 讨论 
它 对 传输 性 能 的 影响 。 
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3.9 ”隧道 基础 

在 某 些 情况 下 ， 两 台 计 算 机 通过 Internet 或 其 他 网 络 建立 一 条 虚拟 链 路 是 有 用 的 。 虚 拟 
专用 网 络 (VPN) 提供 这 种 服务 。 实 现 这 类 服务 的 最 常用 方法 称 为 隧道 。 一 般 来 说 ， 隧 道 是 
在 高 层 (或 同等 层 ) 分 组 中 携带 低层 数据 。 例 如 ， 在 一 个 IPv4 或 IPv6 分 组 中 携带 IPv4 数据 ， 
在 一 个 UDP、IPv4 或 IPv6 分 组 中 携带 以 太 网 数据 。 隧 道 转变 了 在 头 部 中 协议 严格 分 层 的 思 
路 ， 并 允许 形成 履 盖 网 络 ( 即 这 些 “ 链 路 ”实际 是 其 他 协议 实现 的 虚拟 链 路 ， 而 不 是 物理 连 
接 的 网 络 )。 这 是 一 个 非常 强大 和 有 用 的 技术 。 这 里 ,我们 讨论 了 一 些 隧道 方案 的 基础 。 

为 某 个 协议 层 的 分 组 或 另 一 层 的 分 组 建立 隧道 有 多 种 方法 。 用 于 建立 隧道 的 3 个 常见 协 
WEH: 通用 路 由 封装 (GRE)[RFC2784]、Microsoft 专用 的 点 对 点 隧道 协议 (PPTP)[RFC2637] 
和 第 2 层 隧 道 协议 (L2TP) [RFC3931]。 其 他 协议 包括 早期 非 标 准 的 IP-in-IP 隧道 协议 
[RFC1853]。GRE 和 LT2P 后 来 发 展 成 为 标准 ， 并 分 别 代替 了 IP-in-IP 和 PPTP (但 这 两 种 协 
议 仍 在 使 用 )。 我 们 将 重点 放 在 GRE 和 PPTP， 但 更 关注 PPTP， 因 为 它 是 个 人 用 户 的 常用 协 
议 ， 即 使 它 并 不 是 一 个 IETF 标准 。L2TP 本 身 不 提供 安全 保障 ， 它 常用 于 IP 层 安全 (IPsec; 
见 第 18 章 )。 由 于 GRE 和 PPTP 有 密切 关系 ， 我 们 现在 看 图 3-26 中 的 GRE 头 部 ， 它 们 分 别 
基于 原来 的 标准 和 修订 后 的 标准 。 


0 12 15 31 
Me ea 
RFC 2784 (12 位 ) (3 位 ) (16 位 ) 
校 验 和 ( 可 选 ) 保留 1 (可 选 ) 


0 12 15 31 
al te 保留 (0 ) 版 本 协议 类 型 
(9 位 ) (3 位 ) (16 位 ) 
校 验 和 ( 可 选 ) 保留 1 ( 可 选 ) 
密 钥 ( 可 选 ) 
序列 号 (可 选 ) 


图 3-26 ”基本 的 GRE 头 部 只 有 4 字 节 ,包括 一 个 16 位 的 校 验 和 选项 (很 多 Internet 协议 中 的 典型 选 
项 )。 后 来 ， 这 个 头 部 被 扩展 为 包括 一 个 标识 符 ( 密 铀 字段 )， 该 标识 符 是 同一 流 中 的 多 个 分 组 
共有 的 ， 还 包括 一 个 序列 号 (用 于 顺序 混乱 的 分 组 重新 排序 ) 












RFC 2890 






从 图 3-26 中 的 头 部 可 以 看 出 ， 基 本 GRE 规范 [RFC2784] 是 相当 简单 的 ， 它 只 提供 了 对 
其 他 分 组 的 最 简化 的 封装 。 第 一 个 位 字段 (C) 指出 是 否 存在 校 验 和 。 如 果 是 ， 校 验 和 字段 
中 包含 相同 类 型 的 校 验 和 ， 它 在 很 多 Internet 相关 协议 中 可 看 到 ( 见 5.2.2 节 )。 如 果 校 验 和 
字段 存在 ,保留 1 字段 也 存在 ， 并 被 设置 为 0。[RFC2890] 扩展 了 基本 格式 ， 包 括 可 选 的 密 
钥 和 序列 号 字段 ， 如 果 有 这 两 个 字段 的 话 ， 图 3-26 PAK AS 位 字段 分 别 被 设置 为 1。 密 
钥 字 段 在 多 个 分 组 中 被 分 配 了 一 个 同样 的 值 ， 表 示 它 们 是 属于 同一 流 中 的 分 组 。 如 果 分 组 顺 
序 被 打 乱 (例如 通过 不 同 链 路 )， 可 利用 序列 号 字段 对 分 组 重新 排序 。 

虽然 GRE 是 PPTP 的 基础 ， 并 被 PPTP 使 用 , 但 这 两 个 协议 的 目的 不 同 。GRE 隧道 常 
用 于 网 络 基础 设施 内 的 流量 传输 ， 例 如 ISP 之 间或 企业 内 部 网 与 分 支 机 构 之 间 ， 虽 然 GRE 
隧道 可 与 IPsec 结合 ， 但 这 个 流量 通常 没 必 要 加 密 。 相 反 ，PPTP 常用 于 用 户 和 ISP 或 企业 内 
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部 网 之 间 ， 并 需要 加 密 (例如 使 用 MPPE)。PPTP 本 质 上 是 GRE 和 PPP 的 结合 ， 因 此 GRE 
可 基于 PPP 提供 虚拟 的 点 到 点 链 路 。GRE 使 用 IPv4 或 IPv6 携带 流量 ， 因 此 它 更 像 是 一 种 第 
3 层 隧道 技术 。PPTP 常用 于 携带 第 2 层 帧 (例如 以 太 网 )， 因 此 需要 模拟 一 条 直接 的 局 域 网 
( 链 路 层 ) 连接 。 例 如 ， 它 可 用 于 对 企业 网 络 的 远程 访问 。PPTP 采用 的 是 对 标准 GRE 头 部 的 
改进 方案 ( 见 图 3-27 ) 。 
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密 钥 (HW ) 负载 长 度 密 钥 (LW ) 调用 ID 


序列 号 (可 选 ) 


确认 号 ( 可 选 ) 


RFC 2637 





图 3-27 PPTP 头 部 基于 一 个 旧 的 、 非 标准 的 GRE 头 部 。 它 包括 一 个 序列 号 、 一 个 累积 的 分 组 确认 号 
和 一 些 标识 信息 。 多 数字 段 在 第 一 次 使 用 时 设置 为 0 


我 们 可 看 到 图 3-27 与 标准 GRE 头 部 的 一 些 差异 ， 包 括 额 外 的 R、S 和 A 位 字段 ， 以 及 
标志 字段 和 回溯 (Recur) 字段 。 它 们 中 的 多 数 设置 为 0， 并 且 没 有 使 用 (它们 的 分 配 是 基于 
一 个 旧 的 、 非 标准 的 GRE 版 本 )。K、S 和 A 位 字段 分 别 表示 密 钥 、 序 列 号 和 确认 号 字段 是 
否 存在 。 如 果 存 在 ， 序 列 号 字段 保存 对 方 可 看 到 的 最 大 分 组 数 。 

我 们 现在 建立 一 个 PPTP 会 话 ， 稍 后 对 PPTP 的 其 他 功能 进行 简单 讨论 。 下 面 的 例子 类 
似 于 前 面 给 出 的 PPP 链 路 建立 的 例子 ， 区 别 在 于 现在 不 常 使 用 拨号 连接 ，PPTP 为 PPP 提供 
了 一 条 “原始 ” 链 路 。 第 二 个 客户 端 使 用 Windows Vista 系统 ， 服 务 器 使 用 Linux 系统 。 当 
调试 选项 启用 时 ， 这 个 输出 保存 在 /var/log/messages 文件 中 : 


pptpd: MGR: Manager process started 

pptpd: MGR: Maximum of 100 connections available 

pptpd: MGR: Launching /usr/sbin/pptpctrl to handle client 
pptpd: CTRL: local address = 192.168.0.1 

pptpd: CTRL: remote address = 192.168.1.1 

pptpd: CTRL: pppd options file = /etc/ppp/options.pptpd 
pptpd: CTRL: Client 71.141.227.30 control connection started 
pptpd: CTRL: Received PPTP Control Message (type: 1) 
pptpd: CTRL: Made a START CTRL CONN RPLY packet 

pptpd: CTRL: I wrote 156 bytes to the client. 

pptpd: CTRL: Sent packet to client 

pptpd: CTRL: Received PPTP Control Message (type: 7) 


pptpd: CTRL: Set parameters to 100000000 maxbps, 64 window size 
pptpd: CTRL: Made a OUT CALL RPLY packet 

pptpd: CTRL: Starting call (launching pppd, opening GRE) 
pptpd: CTRL: pty_fd = 6 

pptpd: CTRL: tty fd = 7 

pptpd: CTRL (PPPD Launcher): program binary = /usr/sbin/pppd 
pptpd: CTRL (PPPD Launcher): local address = 192.168.0.1 
pptpd: CTRL (PPPD Launcher): remote address = 192.168.1.1 
pppd: pppd 2.4.4 started by root, uid 0 

pppd: using channel 60 

pptpd: CTRL: I wrote 32 bytes to the client. 

pptpd: CTRL: Sent packet to client 

pppd: Using interface ppp0 
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pppd: Connect: PPP0 <--> /dev/pts/1 

pppd: sent [LCP ConfReq id=0xl <asyncmap 0x0> <auth chap MS-v2> 
<magic 0x4e2ca200> <pcomp> <accomp> ] 

pptpd: CTRL: Received PPTP Control Message (type: 15) 

pptpd: CTRL: Got a SET LINK INFO packet with standard ACCMs 

pptpd: GRE: accepting packet #0 

pppd: rcvd [LCP ConfReq id=0x0 <mru 1400> <magic 0x5e565505> 
<pcomp> <accomp> ] 

pppd: sent [LCP ConfAck id=0x0 <mru 1400> <magic 0x5e565505> 
<pcomp> <accomp> ] 

pppd: sent [LCP ConfReq id=0xl <asyncmap 0x0> <auth chap MS-v2> 
<magic 0x4e2ca200> <pcomp> <accomp>] 

pptpd: GRE: accepting packet #1 

pppd: rcvd [LCP ConfAck id=0xl <asyncmap 0x0> <auth chap MS-v2> 
<magic 0x4e2ca200> <pcomp> <accomp>] 

pppd: sent [CHAP Challenge id=0x3 
<eb88bfff67d1c239ef73e98ca32646a5>, name = "dialer" ] 

pptpd: CTRL: Received PPTP Control Message (type: 15) 

pptpd: CTRL: Ignored a SET LINK INFO packet with real ACCMs! 


pptpd: GRE: accepting packet #2 


pppd: rcvd [CHAP Response id=0x3<276f3678£0£03f£a57£64b3c367529565000000 


00000000000fa2b2ac0ad8db9d986f8e222a0217a620638a24 
3179160900>, name = “dialer” ] 

pppd: sent [CHAP Success id=0x3 
"S=C551119E0E1AAB68E86DED09A32D0346D7002E05 
M=Accessgranted" ] 

pppd: sent [CCP ConfReq id=0xl <mppe +H -M +S +L -D -C>] 

pptpd: GRE: accepting packet #3 

pppd: rcvd [IPV6CP ConfReq id=0xl <addr fe80::lcfc:fddd:8e2c:e118>] 

pppd: sent [IPV6CP TermAck id=0x1] 

pptpd: GRE: accepting packet #4 

pppd: rcvd [CCP ConfReq id=0x2 <mppe +H -M -S -L -D -C>] 

pppd: sent [CCP ConfNak id=0x2 <mppe +H -M +S +L -D -C>] 

pptpd: GRE: accepting packet #5 

pptpd: GRE: accepting packet #6 

pppd: rcvd [IPCP ConfReq id=0x3 <addr 0.0.0.0> <ms-dnsl 0.0.0.0> 
<ms-wins 0.0.0.0> <ms-dns3 0.0.0.0> <ms-wins 0.0.0.0>] 

pptpd: GRE: accepting packet #7 

pppd: sent [IPCP TermAck id=0x3] 

pppd: rcvd [CCP ConfNak id=0xl <mppe +H -M +S -L -D -C>] 

pppd: sent [CCP ConfReq id=0x2 <mppe +H -M +S -L -D -C>] 

pppd: rcvd [CCP ConfReq id=0x4 <mppe +H -M +S -L -D -C>] 

pppd: sent [CCP ConfAck id=0x4 <mppe +H -M +S -L -D -C>] 

pptpd: GRE: accepting packet #8 

pppd: revd [CCP ConfAck id=0x2 <mppe +H -M +S -L -D -C>] 

pppd: MPPE 128-bit stateless compression enabled 

pppd: sent [IPCP ConfReq id=0xl <addr 192.168.0.1>] 

pppd: sent [IPV6CP ConfReq id=0xl <addr fe80::0206:5bff:fedd:c5c3>] 

pptpd: GRE: accepting packet #9 

pppd: rcvd [IPCP ConfAck id=0xl <addr 192.168.0.1>] 

pptpd: GRE: accepting packet #10 

pppd: revd [IPV6CP ConfAck id=0xl <addr fe80::0206:5bff:fedd:c5c3>] 

pptpd: GRE: accepting packet #11 

pppd: rcvd [IPCP ConfReq id=0x5 <addr 0.0.0.0> 
<ms-dnsl 0.0.0.0> <ms-wins 0.0.0.0> 
<ms-dns3 0.0.0.0> <ms-wins 0.0.0.0>] 

pppd: sent [IPCP ConfRej id=0x5 <ms-wins 0.0.0.0> <ms-wins 0.0.0.0>] 

pptpd: GRE: accepting packet #12 

pppd: rcvd [IPV6CP ConfReq id=0x6 <addr fe80::lcfc:fddd:8e2c:e118>] 

pppd: sent [IPV6CP ConfAck id=0x6 <addr fe80::lcfc:fddd:8e2c:e118>] 

pppd: local LL address fe80::0206:5bff:fedd:c5c3 
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pppd: remote LL address fe80::lcfc:fddd:8e2c:e118 

pptpd: GRE: accepting packet #13 

pppd: rcvd [IPCP ConfReq id=0x7 <addr 0.0.0.0> 
<ms-dnsl 0.0.0.0> <ms-dns3 0.0.0.0>] 

pppd: sent [IPCP ConfNak id=0x7 <addr 192.168.1.1> 
<ms-dnsl 192.168.0.1> <ms-dns3 192.168.0.1>] 

pptpd: GRE: accepting packet #14 

pppd: rcvd [IPCP ConfReq id=0x8 <addr 192.168.1.1> 
<ms-dnsl 192.168.0.1> <ms-dns3 192.168.0.1>] 

pppd: sent [IPCP ConfAck id=0x8 <addr 192.168.1.1> 
<ms-dnsl 192.168.0.1> <ms-dns3 192.168.0.1>] 

pppd: local IP address 192.168.0.1 

pppd: remote IP address 192.168.1.1 

pptpd: GRE: accepting packet #15 

pptpd: CTRL: Sending ECHO REQ id 1 

pptpd: CTRL: Made a ECHO REQ packet 

pptpd: CTRL: I wrote 16 bytes to the client. 

pptpd: CTRL: Sent packet to client 


这 个 输出 类 似 于 前 面 看 过 的 PPP 的 例子 ， 区 别 在 于 一 个 pppd 过 程 和 一 个 pptpd 过 程 。 
这 些 进 程 协同 工作 以 建立 到 服务 器 的 PPTP 会 话 。 整 个 建立 过 程 开 始 于 用 pptpd 接收 1 个 类 
型 为 1 的 控制 消息 ， 表 示 客 户 机 希望 建立 一 个 控制 连接 。PPTP 使 用 分 离 的 控制 流 和 数据 流 ， 
因此 首先 需要 建立 一 个 控制 流 。 在 响应 这 个 请 求 之 后 ， 服 务 器 接收 到 一 个 类 型 为 7 的 控制 消 
息 (表示 对 方 发 送 的 呼叫 请 求 )。 最 大 速度 (b/s) 设置 为 一 个 很 大 的 值 100 000 000， 实 际 上 
意味 着 它 是 无 限制 的 。 窗 口 设置 为 64， 这 是 在 传输 协议 例如 TCP ( 见 第 15 章 ) 中 经 常 看 到 
的 一 个 概念 。 这 里 ， 窗 口 用 于 流量 控制 。 也 就 是 说 ，PPTP 使 用 自己 的 序列 号 和 确认 号 来 确 
定 多 少 帧 成 功 到 达 目 的 地 。 如 果 成 功 交 付 的 帧 太 少 ， 发 送 者 需要 减 小 发 送 速率 。 为 了 确定 帧 
确认 的 等 待 时 间 ，PPTP 使 用 一 种 自 适 应 的 超时 机 制 ， 根 据 链 路 的 往返 时 间 进 行 估算 。 当 我 
们 学 习 TCP 时 将 看 到 这 种 计算 过 程 。 

在 设置 窗口 后 不 久 ，pppd 应 用 开始 运行 和 处 理 PPP 数据 ， 就 像 我 们 之 前 在 拨号 例子 中 
看 到 的 那样 。 两 者 之 间 唯 一 的 区 别 在 于 : pptpd 在 分 组 到 达 和 离开 时 转发 给 pppd 过 程 ， 以 及 
pptpd 处 理 的 少量 特殊 PPTP 消息 (例如 set link info 和 echo request)。 这 个 例子 说 明了 PPTP 
协议 如 何 实际 运行 ， 就 像 一 个 针对 PPP 分 组 的 GRE 隧道 。 由 于 现 有 PPP 实现 (这 里 是 pppd) 
可 处 理 封装 的 PPP 分 组 ， 因 此 它 是 很 方便 的 。 注 意 ， 虽 然 GRE 本 身 通常 封装 在 IPv4 分 组 
中 ， 但 类 似 功能 也 可 使 用 IPv6 隧道 分 组 [RFC2473]。 


3.9.1 单 向 链 路 


当 链 路 仅 在 一 个 方向 工作 时 出 现 一 个 有 趣 的 问题 。 这 种 在 一 个 方向 工作 的 链 路 称 为 单 向 
链 路 (UDL)， 由 于 它们 需要 交换 信息 (例如 PPP 配置 消息 )， 因 此 前 面 介绍 的 很 多 协议 在 这 
种 情况 下 不 能 正常 运行 。 为 了 解决 这 种 问题 提出 了 一 种 标准 ， 可 在 辅助 mternet 接口 上 创建 
隧道 ， 它 可 与 UDL 操作 相 结合 [RFC3077]。 典 型 情况 是 由 卫星 提供 下 行 流量 (流向 用 户 ) 而 
形成 一 条 Internet 连接 ， 或 者 是 调制 解 调 器 提供 上 行 流 量 而 形成 一 条 拨号 链 路 。 这 在 卫星 连 
接 的 用 户主 要 是 下 载 而 不 是 上 传 的 情况 下 是 有 用 的 ， 并 且 通 常用 于 早期 的 卫星 Internet 连接 。 
它 使 用 GRE 将 链 路 层 的 上 行 流量 封装 在 IP 分 组 中 。 

为 了 在 接收 方 自动 建立 和 维护 隧道 ，[RFC3077] 规定 了 一 种 动态 隧道 配置 协议 (DTCP)。 
DTCP 涉及 在 下 行 链 路 中 发 送 组 播 Hello 消息 ， 因 此 任何 有 兴趣 的 接收 方 都 可 知道 已 有 UDL 
RE MAC 和 也 地 址 。 男 外 ，Hello 消息 表示 网 络 中 一 个 隧道 端点 的 接口 ， 它 可 通过 用 户 端 
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的 辅助 接口 到 达 。 在 用 户 选择 隧道 端点 之 后 ，DTCP 在 GRE 隧道 中 将 同一 MAC 作为 UDL 
封装 返回 流量 。 服 务 提供 商 接收 由 GRE 封装 的 这 些 第 2 层 帧 (通常 是 以 太 网 )， 将 它们 从 隧 
道中 提取 并 适当 转发 。 因 此 ， 上 游 GEER) UDL 需要 手工 配置 隧道 下游 (很 多 用 户 ) A 
动 配置 隧道 。 注 意 ， 这 种 UDL 处 理 方法 实际 上 是 为 上 层 协议 不 对 称 地 “隐藏 ” 链 路 。 因 此 ， 
这 条 链 路 “两 个 ”方向 上 的 性 能 (延迟 、 带 宽 ) 可 能 非常 不 对 称 ， 并 可 能 对 高 层 协议 产生 不 
利 影响 [RFC3449]。 

这 个 例子 说 明 ， 隧 道 的 一 个 重要 问题 是 配置 的 工作 量 ， 这 个 工作 从 前 一 直 由 手工 完成 。 
在 通常 情况 下 ， 隧 道 配 置 涉及 选择 一 个 隧道 端点 ， 以 及 用 对 方 的 了 P 地 址 配置 位 于 隧道 端点 
的 设备 ， 也 许 还 需要 选择 协议 和 提供 认证 信息 。 一 些 相 关 技 术 已 经 出 现 ， 以 协助 自动 配置 或 
使 用 隧道 。 一 种 从 IPv4 向 IPv6 的 过 湾 方 法 称 为 6to4 [RFC3056]。 在 6to4 中 ，IPv6 分 组 在 一 
个 IPv4 网 络 中 通过 隧道 传输 ，[RFC3056] 中 规定 它 采 用 的 封装 方式 。 当 相应 主机 经 过 了 网 络 
地 址 转换 〈 见 第 7 章 )， 采 用 这 种 方法 就 会 出 现 一 个 问题 。 这 在 当前 是 常见 的 ， 特 别 是 对 于 家 
庭 用 户 。 自 动 配置 隧道 的 IPv6 过 渡 处 理 方法 规定 在 Teredo 技术 方案 中 [RFC4380]。Teredo 
在 UDP/IPv4 分 组 上 形成 Pv6 分 组 的 隧道 。 理 解 这 种 方法 需要 一 些 IPv4、IPv6 和 UDP 的 背 
景 知识 ,我 们 将 在 第 10 章 详细 讨论 这 种 隧道 自动 配置 选项 。 


3.10 与 链 路 层 相关 的 攻击 


对 TCP/IP 以 下 的 层 进行 攻击 以 影响 TCP/IP 网 络 运行 一 直 是 常见 的 做 法 ， 这 是 由 于 大 部 
分 链 路 层 信息 不 被 高 层 共 享 ， 因 而 难以 检测 。 不 过 ， 现 在 大 家 已 知道 很 多 这 种 攻击 ， 我 们 在 
这 里 提 到 其 中 一 些 ， 以 更 好 地 理解 链 路 层 问 题 如 何 影 响 高 层 运行 。 

在 传统 的 有 线 以 太 网 中 ， 接 口 可 被 设置 为 混杂 模式 ， 这 人 允许 它 接收 目的 地 不 是 自己 的 流 
量 。 在 早期 的 以 太 网 中 ， 当 介质 是 名 副 其 实 的 共享 电缆 时 ， 该 功能 允许 任何 一 台 连 接 以 太 网 
电缆 的 计算 机 “ 嗅 探 ”别人 的 帧 并 检查 其 内 容 。 当 时 很 多 高 层 协议 包含 密码 等 敏感 信息 ， 仅 
通过 查看 一 个 分 组 并 解码 就 能 轻易 获得 密码 。 两 个 因素 对 这 种 方法 的 影响 很 大 : 交换 机 部 署 
和 高 层 协议 加 密 部 署 。 在 使 用 交换 机 后 ， 只 有 连接 到 交换 机 端口 的 站 提供 流量 ,流量 的 目的 
地 也 是 其 他 站 (或 其 他 桥接 的 站 )， 以 及 广播 /组 播 流量 。 这 种 流量 很 少 包含 敏感 信息 (例如 
密码 )， 可 在 很 大 程度 上 阻止 攻击 。 但 是 ， 在 更 高 层 使 用 加 密 更 有 效 ， 这 在 当前 是 常见 的 。 在 
这 种 情况 下 ， 嗅 探 分 组 难以 获得 多 少 好 处 ， 因 为 基本 无 法 直接 获取 内 容 。 

另 一 种 攻击 的 目标 是 交换 机 。 交 换 机 中 有 一 个 基于 每 个 端口 的 站 列表 。 如 果 这 种 表 能 被 
快速 填充 (例如 被 大 量 伪装 的 站 快速 填充 )， 交 换 机 可 能 被 迫 放 弃 合 法 条 目 ， 从 而 导致 中 断 对 
合法 站 的 服务 。 一 个 相关 但 可 能 更 严重 的 攻击 是 使 用 STP。 在 这 种 情况 下 ， 一 个 站 可 伪装 成 
一 个 到 根 网 桥 拥有 低 成 本 路 径 的 站 ， 从 而 吸引 流量 直接 导向 它 。 

随 着 Wi-Fi 网 络 的 使 用 ， 有 线 以 太 网 中 存在 的 一 些 窃听 和 伪装 问题 变 得 更 严重 ， 这 是 由 
于 任何 站 都 可 进入 监控 模式 并 嗅 探 分 组 (802.11 接口 置 于 监控 模式 通常 比 以 太 网 接口 置 于 混 
杂 模 式 更 有 挑战 性 ， 这 样 做 依赖 于 一 个 适当 的 设备 )。 一 些 早期 “攻击 ”( 可 能 不 是 真 的 被 攻 
击 ， 依 据 相 关 的 法 律 框架 ) 涉及 扫描 中 的 简单 漫游 ， 寻 找 提 供 Internet 连接 的 接 人 点 (AS 
驶 攻击 )。 虽 然 很 多 接 人 点 使 用 加 密 来 限制 授权 用 户 的 访问 ， 但 有 些 人 却 能 打开 或 使 用 捕获 
门户 技术 访问 注册 网 页 ， 然 后 进行 基于 MAC 地 址 的 过 滤 访 问 。 通 过 观察 站 注册 以 及 冒充 合 
法 注册 用 户 来 “劫持 ”连接 ， 捕 获 门户 系统 已 被 破坏 。 

一 种 更 先进 的 Wi-Fi 攻击 涉及 对 加 密 保护 的 攻击 ， 尤 其 是 很 多 早期 接 入 点 使 用 的 WEP 
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加 密 。 针 对 WEP [BHL06] 的 攻击 有 显著 的 破坏 性 ， 它 促使 IEEE 修订 了 自己 的 标准 。 新 的 
WPA2 (和 WPA) 加 密 体系 明显 更 强 ， 因 此 不 再 推荐 使 用 WEP。 

如 果 攻 击 者 可 访问 两 个 端点 之 间 的 信道 ， 它 可 采用 很 多 方式 来 攻击 PPP 链 路 。 对 于 很 简 
单 的 认证 机 制 (例如 PAP)， 嗅 探 可 用 于 捕获 密码 ， 以 便 后 续 的 非法 访问 。 通 过 PPP BERR ( 例 
如 路 由 流量 ) 上 的 更 高 层 流 量 ， 可 导致 系统 的 不 可 用 。 

从 攻击 的 角度 看 ， 隧 道 经 常 是 目标 ， 有 时 也 成 为 攻击 工具 。 作 为 目标 ， 隧 道 穿 过 一 个 网 
络 (通常 是 Internet)， 它 是 被 截获 和 分 析 的 目标 。 隧 道 端点 配置 也 可 被 攻击 ， 尝 试 由 端点 建 
立 更 多 隧道 (一 个 DoS Kitt) 或 攻击 配置 自身 。 如 果 该 配置 被 攻破 ， 可 能 打开 一 个 未 授权 的 
隧道 端点 。 在 这 点 上 ， 隧 道 变 成 工具 而 不 再 是 目标 ， 有 些 协 议 〈 例 如 L2TP) 提供 一 种 与 协议 
无 关 的 简便 方法 ， 以 在 链 路 层 访问 私有 的 内 部 网 络 。 在 一 种 GRE 相关 的 攻击 中 ， 例 如 将 流 
量 简单 地 插入 一 个 非 加 密 隧 道 ， 它 到 达 隧 道 端点 并 被 注入 “和 私有” 网络， 虽然 它 本 来 只 应 被 
送 往 端点 本 地 。 


3.11 BE 


在 本 章 中 ， 我 们 探讨 Internet 协议 族 的 低层 ， 也 就 是 我 们 关注 的 链 路 层 。 我 们 首先 介绍 
以 太 网 的 演变 ， 速 度 从 10Mb/s 增加 到 10Gb/s 及 以 上 ， 功 能 上 的 变化 包括 VLAN 、 优 先 级 、 
链 路 聚合 和 帧 格式 等 方面 。 我 们 介绍 了 交换 机 如 何 通过 网 桥 改善 性 能 ， 这 主要 通过 在 多 个 独 
立 站 的 集合 之 间 提 供 直 连 电路 来 实现 ， 以 及 由 全 双 工 操作 取代 早期 半 双 工 操作 。 我 们 还 介绍 
了 IEEE 802.11 无 线 局 域 网 Wi-Fi 标准 的 一 些 细节 ， 并 说 明 它 与 以 太 网 的 相似 点 和 区 别 。 它 
已 成 为 最 流行 的 IEEE 标准 之 一 ， 并 通过 两 个 主要 频段 2.4GHz 和 SGHz 提供 无 须 许 可 的 网 络 
访问 。 我 们 还 介绍 了 Wi-Fi 安全 方法 的 演变 ， 从 较 弱 的 WEP 到 更 强 的 WPA 和 WPA2 框架 。 
TE IEEE 标准 的 基础 上 ， 我 们 讨论 了 点 到 点 链 路 和 PPP 协议 。PPP 实际 上 可 封装 任何 类 型 的 
分 组 ， 可 用 于 TCP/IP 和 非 TCP/IP 网 络 ， 采 用 一 种 类 似 HDLC 的 帧 格式 ， 并 且 可 用 于 从 低 
速 拨 号 调制 解 调 器 到 高 速 光 纤 线 路 。 它 本 身 是 一 整套 协议 ， 涉 及 压缩 、 加 密 、 认 证 和 链 路 聚 
合 。 它 只 支持 两 个 参与 者 之 间 通 信 ， 无 法 处 理 对 共享 介质 的 访问 控制 ， 例 如 以 太 网 或 Wi-Fi 
的 MAC 协议 。 

大 多 数 实现 提供 了 环 回 接口 。 通 过 特殊 的 环 回 地 址 ， 通 常 为 127.0.0.1 (IPv6 为 :1 )， 或 
将 全 数据 报 发 送 到 主机 自己 的 他 地 址 ， 都 可 访问 该 接口 。 环 回 数据 可 被 传输 层 处 理 ， 并 在 
网 络 层 被 IP 处 理 。 我 们 描述 了 链 路 层 的 一 个 重要 特点 ， 即 MTU 和 路 径 MTU 的 相关 概念 。 

我 们 也 讨论 了 隧道 的 使 用 ， 涉 及 在 更 高 层 (或 同等 层 ) 分 组 中 携带 低层 协议 。 这 种 技术 
可 形成 覆盖 网 络 ， 在 Internet 中 将 隧道 作为 网 络 基础 设施 的 其 他 层 中 的 链 路 。 这 项 技术 已 变 
得 非常 流行 ， 包 括 新 功能 的 实验 (例如 在 一 个 IPv4 网 络 上 运行 的 一 个 IPv6 覆盖 网 络 ) 和 实 
际 使 用 (例如 VPN). 

最 后 简要 讨论 了 链 路 层 涉及 的 各 种 攻击 类 型 ， 它 们 既是 目标 又 是 工具 。 很 多 攻击 涉及 流 
量 截取 与 分 析 (例如 查找 密码 )， 但 很 多 复杂 攻击 涉及 伪造 端点 和 修改 传输 中 的 流量 。 其 他 攻 
击 涉及 修改 控制 信息 ， 例 如 隧道 端点 或 STP 信息 ， 以 将 流量 导向 其 他 意 想不到 的 位 置 。 链 路 
层 访问 也 提供 了 一 种 执行 Dos 攻击 的 通用 方式 。 这 方面 最 著名 的 攻击 是 干扰 通信 信和 号， 这 种 
攻击 几乎 从 无 线 电 问世 以 来 就 有 了 。 

本 章 仅 涵盖 了 当前 TCP/IP 使 用 的 一 些 常见 链 路 技术 。TCP/P 成 功 的 原因 之 一 在 于 它 能 
工作 在 几乎 任何 一 种 链 路 技术 之 上 。 从 本 质 上 来 说 ， 卫 只 要 求 发 送 方 和 接收 方 之 间 存 在 某 条 
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路 径 ， 它 们 可 能 经 过 一 些 级 联 的 中 间 链 路 。 这 是 一 个 相对 适中 的 要 求 ， 很 多 研究 的 目标 甚至 
延伸 得 更 远 ， 发 送 方 和 接收 方 之 间 可 能 永远 没有 一 条 端 到 端 路 径 [RFC4838]。 
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地 址 解析 协议 





4.1 引言 


IP 协议 的 设计 目标 是 为 跨越 不 同类 型 物理 网 络 的 分 组 交换 提供 互 操作 。 这 需要 网 络 层 软 
件 使 用 的 地 址 和 底层 网 络 硬 件 使 用 的 地 址 之 间 进 行 转 换 。 网 络 接口 硬件 通常 有 一 个 主要 的 硬 
件 地 址 (例如 以 太 网 或 802.11 无 线 接口 的 48 位 地 址 )。 由 硬件 交换 的 帧 需要 使 用 正确 的 硬件 
地 址 定位 到 正确 的 接口 ; 和 否则， 无 法 传输 数据 。 但 是 ， 一 个 传统 IPv4 网 络 需 要 使 用 自己 的 
地 址 : 32 位 的 IPv4 地 址 。 如 果 一 台 主 机 要 将 一 个 帧 发 送 到 男 一 台 主 机 ， 仅 知道 这 台 主 机 的 
IP 地 址 是 不 够 的 ， 还 需要 知道 主机 在 网 络 中 的 有 效 硬件 地 址 。 操 作 系 统 软 件 ( 即 以 太 网 驱动 
程序 ) 必须 知道 目的 主机 的 硬件 地 址 ， 以 便 直接 向 它 发 送 数 据 。 对 于 TCP/IP 网 络 ， 地 址 解 
析 协 议 (ARP) [RFC0826] 提供 了 一 种 在 IPv4 地 址 和 各 种 网 络 技术 使 用 的 硬件 地 址 之 间 的 映 
ffo ARP 仅 用 于 IPv4，IPv6 使 用 邻居 发 现 协议 ， 它 被 合并 入 ICMPv6 ( 见 第 8 章 )。 

这 里 需要 注意 的 是 ， 网 络 层 地 址 和 链 路 层 地 址 是 由 不 同 部 门 分 配 的 。 对 于 网 络 硬件 ， 主 
地 址 是 由 设备 制造 商定 义 的 ， 并 存储 在 设备 的 永久 性 内 存 中 ， 所 以 它 不 会 改变 。 因 此 ， 工 
作 在 特定 硬件 技术 上 的 任意 协议 族 ， 必 须 利 用 特定 类 型 的 地 址 。 这 允许 不 同 协议 族 中 的 
网 络 层 协议 同时 运行 。 另 一 方面 ， 网 络 接口 的 IP 地 址 是 由 用 户 或 网 络 管理 员 分 配 的 ， 并 
且 可 以 按 需 选择 。 为 便携 设备 分 配 的 IP 地 址 可 能 改变 ,例如 设备 移动 时 。IP 地 址 通常 从 
维护 附近 网 络 连 接点 的 地 址 池 中 获得 ， 它 在 系统 启用 或 配置 时 分 配 ( 见 第 6 章 )。 当 两 个 
局 域 网 的 主机 之 间 传 输 的 以 太 网 帧 包含 耻 数据 报时 ， 由 48 位 以 太 网 地 址 确定 该 帧 的 目的 
接 日 s 

地 址 解析 是 发 现 两 个 地 址 之 间 的 映射 关系 的 过 程 。 对 于 使 用 IPv4 的 TCP/IP 协议 族 ， 这 
是 由 运行 的 ARP 来 实现 的 。ARP 是 一 个 通用 的 协议 ， 从 这 个 意义 上 来 看 ， 它 被 设计 为 支持 
多 种 地 址 之 间 的 上 映射。 实际 上 ，ARP 几乎 总 是 用 于 32 位 IPv4 地 址 和 以 太 网 的 48 位 MAC 
地 址 之 间 的 映射 。 这 种 情况 在 [RFC0826] 中 进行 描述 ， 它 也 是 我 们 感 兴趣 的 。 在 本 章 中 ,我 
们 将 互 换 使 用 以 太 网 地 址 和 MAC 地 址 。 

ARP 提供 从 网 络 层 地 址 到 相关 硬件 地 址 的 动态 映射 。 我 们 使 用 动态 这 个 术语 是 因为 它 会 
自动 执行 和 随时 间 变 化 ， 而 不 需要 系统 管理 员 重 新 配置 。 也 就 是 说 ， 如 果 一 台 主 机 改变 它 的 
网 络 接口 卡 ， 从 而 改变 了 它 的 硬件 地 址 (但 保留 其 分 配 的 IP 地 址 )，ARP 可 以 在 一 定 延 时 后 
继续 正常 运作 。ARP 操作 通常 与 用 户 或 系统 管理 员 无 关 。 


注意 提供 ARP 反 向 映射 的 协议 称 为 RARP， 它 用 于 缺少 磁盘 驱动 器 (通常 是 无 盘 
工作 站 或 入 终端 ) 的 系统 。 它 在 当前 已 很 少 使 用 ， 而 且 需 要 系统 管理 员 手 动 配置 。 
详情 见 [RFC0903]。 


4.2 一 个 例子 
当 我 们 使 用 Internet 服务 时 ， 例 如 在 浏览 器 中 打开 一 个 网 页 ， 本 地 计算 机 必须 确定 如 何 
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与 相关 的 服务 器 联系 。 它 首先 是 判断 该 服务 位 于 本 地 (同一 IP 子 网 的 一 部 分 ) 还 是 远程 。 如 
果 是 远程 的 ， 需 要 一 台 可 到 达 目 的 地 的 路 由 器 。 仅 在 到 达 位 于 同一 卫 子 网 的 系统 时 ，ARP 
才能 工作 。 那 么 ， 对 于 这 个 例子 ， 我 们 假设 使 用 Web 浏览 器 打开 以 下 网 址 : 


http://10.0.0.1 


注意 ， 这 个 URL 包含 一 个 IPv4 地 址 ， 而 不 是 更 常见 的 域名 或 主机 名 。 这 里 使 用 地 址 的 
原因 是 要 强调 一 个 事实 ， 例 子 中 是 共享 相同 IPv4 前 缀 的 相关 系统 ( 见 第 2 章 )。 这 里 ， 我 们 
使 用 包含 地 址 的 URL， 以 确定 一 个 本 地 的 Web 服务 器 ， 并 探索 直接 交付 的 运行 原理 。 随 着 
RARE (例如 打印 机 和 VoIP 适配器 ) 使 用 内 置 Web 服务 器 进行 配置 ， 这 种 本 地 服务 器 
越 来 越 常 见 。 


4.2.1 直接 交付 和 ARP 


在 本 节 中 ， 我 们 列 出 了 直接 交付 的 步 又， 重点 集中 在 ARP 的 运行 上 。 直 接 交 付 发 生 在 
一 个 IP 数据 报 被 发 送 到 一 个 IP 地址 ， 而 该 地 址 与 发 送 方 具有 相同 IP 前 缀 的 情况 下 。 在 IP 
数据 报 转发 ( 见 第 5 章 ) 的 常见 方式 中 ， 它 扮演 着 一 个 重要 角色 。 下 面 用 前 面 的 例子 列 出 
IPv4 直接 交付 的 基本 操作 : 

1. 在 这 种 情况 下 ， 应 用 程序 是 一 个 Web 浏览 器 ， 调 用 一 个 特殊 函数 来 解析 URL， 看 它 
是 否 包 含 主机 和 名。 这 里 不 是 ， 应 用 程序 使 用 32 位 IPv4 地 址 10.0.0.1。 

2. 应 用 程序 要 求 TCP 协议 建立 一 条 到 10.0.0.1 的 连接 。 

3. 通过 向 10.0.0.1 发 送 一 个 IPv4 数据 报 ，TCP 尝试 向 远程 主机 发 送 一 个 连接 请 求 (第 
15 章 将 介绍 细节 )。 

4. 我 们 假设 地 址 10.0.0.1 使 用 与 发 送 主机 相同 的 网 络 前 级 ， 数 据 报 可 被 直接 发 送 到 这 个 
地 址 而 不 经 过 任何 路 由 器 。 

5. 假设 以 太 网 兼容 地 址 被 用 于 IPv4 子 网 ， 发 送 主机 必须 将 32 位 的 IPv4 目的 地 址 转换 
为 48 位 的 以 太 网 地 址 。 使 用 [RFC0826] RIE, iE m M H Internet 地 址 向 对 应 物理 
硬件 地 址 进行 转换 。 这 是 ARP 功能 。ARP 工作 在 正常 模式 下 ， 仅 适用 于 广播 网 络 ， 链 路 层 
能 将 一 个 消息 交付 到 它 连接 的 所 有 网 络 设备 。 这 是 ARP 运行 的 一 个 重要 要 求 。 在 非 广播 网 
络 (有 时 被 称 为 非 广播 多 路 访问 (NBMA)) 中 ， 可 能 需要 更 复杂 的 映射 协议 [RFC2332]。 

6. 在 一 个 共享 的 链 路 层 网 段 上 ，ARP 向 所 有 主机 发 送 一 个 称 为 ARP 请 求 的 以 太 网 帧 。 
这 被 称 为 链 路 层 广播 。 图 4-1 的 斜 线 阴 影 中 显示 了 一 个 广播 域 。ARP 请 求 包含 目的 主机 的 
IPv4 地 址 ( 10.0.0.1 )， 并 寻找 以 下 问题 的 答案 :“ 如 果 你 将 IPv4 地 址 10.0.0.1 配置 为 自己 的 
地 址 ， 请 向 我 回应 你 的 MAC 地 址 。” 

7. 通过 ARP， 同 一 广播 域 中 的 所 有 系统 可 接收 ARP 请 求 。 这 包括 可 能 根本 不 运行 IPv4 
或 IPv6 协议 的 系统 ， 但 不 包括 位 于 不 同 VLAN 中 的 系统 ， 即 使 支持 它们 (VLAN 详细 信息 
SUS 3 章 )。 如 果 某 个 系统 使 用 请 求 中 指出 的 IPv4 地 址 ， 它 仅 需 要 响应 一 个 ARP 应 答 。 这 
个 应 答 包 含 IPv4 地 址 (与 请 求 相 匹配 ) 和 对 应 的 MAC 地 址 。 这 个 应 答 通 常 不 是 广播 ， 而 是 
仅 直接 发 送 给 请 求 的 发 送 方 。 同 时 ， 接 收 ARP 请 求 的 主机 学 习 IPv4 到 MAC 地 址 的 映射 ， 
并 记录 在 内 存 中 供 以 后 使 用 ( 见 4.3 节 )。 

8. ARP 应 答 被 原始 请 求 的 发 送 方 接收 ， 现 在 可 发 送 引起 这 次 ARP 请 求 /应 答 交 换 过 程 
的 数据 报 。 
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以 太 网 段 





图 4-1 以 太 网 主机 在 同一 广播 域 中 。ARP 查询 使 用 链 路 层 广播 帧 发 送 ， 并 被 所 有 主机 接收 。IP 地 址 
匹配 的 主机 直接 向 请 求 主机 返回 响应 。IP 地 址 不 匹配 的 主机 主动 丢弃 ARP 查询 


9. 发 送 方 可 将 数据 报 封装 在 以 太 网 帧 中 直接 发 送 到 目的 主机 ， 并 使 用 由 ARP 交换 学 到 
的 以 太 网 地 址 作为 目的 地 址 。 由 于 这 个 以 太 网 地 址 仅 指向 正确 的 目的 主机 ， 所 以 其 他 主机 或 
路 由 器 不 会 接收 到 这 个 数据 报 。 因 此 ， 当 仅 使 用 直接 交付 时 ， 并 不 需要 经 过 路 由 器 。 

ARP 用 于 运行 IPv4 的 多 接 入 链 路 层 网 络 ， 每 个 主机 都 有 自己 首选 的 硬件 地 址 。 点 到 点 
链 路 (Bilin PPP) 不 使 用 ARP ( 见 第 3 章 )。 当 这 些 链 路 被 建立 后 (通常 是 由 用 户 或 系统 来 发 
起 创建 )， 在 链 路 两 端 通知 正在 使 用 的 地 址 。 由 于 不 涉及 硬件 地 址 ， 因 此 不 需要 地 址 解析 或 
ARP。 


4.3 ARP 缓存 


ARP 高 效 运 行 的 关键 是 维护 每 个 主机 和 路 由 器 上 的 ARP 缓存 〈 或 表 )。 该 缓存 使 用 地 
址 解析 为 每 个 接口 维护 从 网 络 层 地 址 到 硬件 地 址 的 最 新 映射 。 当 IPv4 地 址 映射 到 硬件 地 址 
时 ， 它 对 应 于 高 速 缓存 中 的 一 个 条 目 ， 其 正常 到 期 时 间 是 条 目 创建 开始 后 的 20 分 钟 ， 这 在 
[RFC1122] 中 描述 。 

我 们 可 在 Linux 或 Windows 中 使 用 arp 命令 查看 ARP 缓存 。 选 项 -a 用 于 显示 这 两 个 系 
统 的 缓存 中 的 所 有 条 目 。 在 Linux 中 ， 运 行 arp 会 产生 以 下 输出 : 


Linux% arp 

Address HWtype HWaddress Flags Mask Iface 
gw.home ether 00:0D:66:4F:60:00 ie ethl 
printer.home ether 00:0A:95:87:38:6A C ethl 
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Linux arp -a 
printer.home (10.0.0.4) at 00:0A:95:87:38:6A [ether] on ethl 
gw.home (10.0.0.1) at 00:0D:66:4F:60:00 [ether] on ethl 


在 Windows 中 ， 运 行 arp 会 产生 以 下 类 似 的 输出 : 


c:\> arp -a 


Interface: 10.0.0.56 --- 0x2 
Internet Address Physical Address Type 
10.0.0.1 00-0d-66-4f-60-00 dynamic 
10.0.0.4 00-0a-95-87-38-6a dynamic 


这 里 ， 我 们 看 到 的 是 IPv4 到 硬件 地 址 的 缓存 。 在 第 一 个 (Linx) 例子 中 ， 每 个 映射 是 
一 个 包含 5 个 元 素 的 条 目 : 主机 名 (对 应 一 个 他 地 址 )、 硬 件 地 址 类 型 、 硬 件 地 址 、 标 志和 
本 地 网 络 接口 〈( 它 对 于 这 个 映射 是 活跃 的 )。 标 志 列 包含 一 个 符号 : C、M 或 P。C 类 条 目 由 
ARP 协议 动态 学 习 ，M 类 条 目 通过 手工 输入 (arp -s ; JL4.9 45), 而 P 类 条 目的 含义 是 “发 
布 " 。 也 就 是 说 ， 对 于 任何 P 类 条 目 ， 主 机 对 输入 的 ARP 请 求 返回 一 个 ARP 应 答 。 这 个 选 
项 用 于 配置 代理 ARP( 见 4.7 节 )。 第 二 个 Linux 的 例子 显示 了 使 用 “BSD 风格 ”的 类 似 信息 。 
这 里 ， 给 出 了 主机 名 和 地 址 ， 对 应 的 地 址 类 型 ( [ether] 表示 一 个 以 太 网 类 型 的 地 址 )， 以 及 映 
射 活跃 在 哪个 接口 上 。 

Windows 的 arp 程序 显示 了 接口 的 IPv4 地 址 ， 它 的 接口 号 是 十 六 进 制 数 (这 里 的 0x2 )。 
Windows 版 本 还 指出 地 址 是 手动 输入 还 是 ARP 学 习 。 在 这 个 例子 中 ， 两 个 条 目 都 是 动态 的 ， 
这 意味 着 它们 来 自 ARP 学 习 (如 果 通 过 手工 输入 ， 它 们 是 静态 的 )。 注 意 ，48 位 MAC 地 址 
被 显示 为 6 个 十 六 进 制 数 ， 在 Linux 中 使 用 冒号 分 隔 ， 在 Windows 中 使 用 短 杠 (dash) 分 隔 。 
在 传统 上 ，UNIX 系统 一 直 使 用 冒号 ， 而 IEEE 标准 和 其 他 操作 系统 倾向 于 使 用 短 杠 。 我 们 
在 4.9 节 中 讨论 arp 命令 的 附加 功能 和 其 他 选项 。 


4.4 ARP 帧 格式 


图 4-2 显示 了 在 以 太 网 中 转换 一 个 IPv4 地 址 时 常用 的 ARP 请 求 和 应 答 分 组 的 格式 (正如 
前 面 所 说 ，ARP 通常 也 能 用 于 IPv4 以 外 的 地 址 ， 虽 然 这 是 非常 少见 的 )。 前 14 字 节 构成 标准 
的 以 太 网 头 部 ， 假 设 没有 802.1p/q 或 其 他 标记 ， 其 余部 分 由 ARP 协议 来 定义 。ARP 帧 的 前 8 
个 字 节 是 通用 的 ， 这 个 例子 中 的 剩余 部 分 专门 用 于 将 IPv4 地 址 映射 到 48 位 的 以 太 网 地 址 。 














Wi 
ARP 请 求 或 应 答 消息 


7 







6 6 2 a F ae (6) (4) (6) (4) (18) 4 
MAC (以 太 网 ) 头 部 固定 大 小 可 变 大 小 
(147 ) (8 字 节 ) (取决 于 协议 ， 以 太 网 /IPv4 为 20 字 节 ) 


图 4-2 IPv4 地 址 映射 到 48 位 的 MAC (以 太 网 ) 地 址 时 使 用 的 ARP 帧 格式 


在 图 4-2 所 示 的 ARP 帧 的 以 太 网 头 部 中 ， 前 两 个 字段 包含 目的 和 源 以 太 网 地 址 。 对 于 
ARP 请 求 ， 目 的 以 太 网 地 址 任 :ff:ff:ff:ff:ff (全 部 为 1 ) 是 广播 地 址 ,在 同一 广播 域 中 的 所 有 
以 太 网 接口 可 接收 这 些 帧 。 在 以 太 网 帧 中 ， 对 于 ARP (请 求 或 应 答 )，2 字 节 的 长 度 或 类 型 字 


3th Bt REH IX 117 


段 必 须 为 0x0806。 

长 度 / 类 型 字段 之 后 的 前 4 个 字段 指定 了 最 后 4 个 字段 的 类 型 和 大 小 。 这 些 值 由 IANA 
[RFC5494] 来 指定 。 术 语 硬 件 和 协议 用 于 描述 ARP 分 组 中 的 字段 。 例 如 ， 一 个 ARP 请 求 询 
问 协议 地 址 (在 这 种 情况 下 是 IPv4 地 址 ) 对 应 的 硬件 地 址 (在 这 种 情况 下 是 以 太 网 地 址 )。 
这 些 术 语 很 少 被 用 于 ARP 之 外 。 相 对 来 说 ,硬件 地 址 的 常见 术语 有 MAC、 物 理 或 链 路 层 地 
tk (或 以 太 网 地 址 ， 当 网 络 基 于 IEEE 802.3/ 以 太 网 的 一 系列 规范 时 )。 硬 件 类 型 字段 指出 硬 
件 地 址 类 型 。 对 于 以 太 网 ， 该 值 为 1。 协 议 类 型 字段 指出 映射 的 协议 地 址 类 型 。 对 于 IPv4 地 
址 ， 该 值 为 0x0800。 当 以 太 网 帧 包含 IPv4 数据 报时 ， 这 可 能 与 以 太 网 帧 的 类 型 字段 值 一 致 。 
对 于 下 面 两 个 1 字 节 的 字段 ， 硬 件 大 小 和 协议 大 小 分 别 指出 硬件 地 址 和 协议 地 址 的 字 节 数 。 
对 于 以 太 网 中 使 用 IPv4 地 址 的 ARP 请 求 或 应 答 ， 它 们 的 值 分 别 为 6 和 4。Op 字段 指出 该 操 
作 是 ARP 请 求 ( 值 为 1 )、ARP 应 答 (2 )、RARP 请 求 (3 ) 或 RARP 应 答 (4)。 由 于 ARP 
请 求 和 ARP 应 答 的 长 度 /类 型 字段 相同 ， 因 此 这 个 字段 是 必需 的 。 

紧 跟 在 后 面 的 4 个 字段 是 发 送 方 硬件 地 址 (在 这 个 例子 中 是 以 太 网 MAC 地 址 )、 发 送 
方 协议 地 址 (IPv4 地 址 )、 目 的 硬件 地 址 (MAC/ 以 太 网 地 址 ) 和 目的 协议 地 址 (IPv4 地 址 )。 
注意 ， 这 里 存在 一 些 重复 的 信息 : 以 太 网 头 部 和 ARP 消息 都 包含 发 送 方 硬件 地 址 。 对 于 一 
个 ARP 请 求 ， 除 了 目的 硬件 地 址 ( 设 为 0 ) 之 外 ， 其 他 字段 都 需要 填充 。 当 一 个 系统 接收 到 
一 个 ARP 请 求 ， 它 填充 自己 的 硬件 地 址 ， 将 两 个 发 送 方 地 址 和 两 个 接收 方 地 址 互 换 ， 将 Op 
字段 设置 为 2， 然 后 发 送 生成 的 应 答 。 


4.5 ARP 例子 


在 本 节 中 ， 我 们 将 使 用 tcpdump 命令 查看 在 执行 一 个 正常 的 TCP/IP 应 用 (例如 Telnet) 
时 运行 ARP 所 实际 发 生 的 过 程 。Telnet 是 一 个 简单 的 应 用 程序 ， 可 用 于 在 两 个 系统 之 间 建 立 
一 条 TCP/IP 连接 。 


4.5.1 正常 的 例子 


为 了 查看 ARP 运行 ， 我 们 将 执行 telnet 命令 ,使 用 TCP 端口 80 ( 称 为 www) 连接 到 主 
机 10.0.0.3 上 的 Web 服务 器 。 


C:\> arp -a 验证 ARP 缓 存 为 空 
No ARP Entries Found 
C:\> telnet 10.0.0.3 www 连接 到 Web 服 务 器 [端口 80 ] 


Connecting to 10.0.0.3... 
Escape character is ‘'“]'. 


按 下 CTRL + 右 括号 键 获得 Telnet 客户 机 的 提示 。 


Welcome to Microsoft Telnet Client 
Escape Character is 'CTRL+]' 
Microsoft Telnet> quit 


指令 quit 用 于 退出 程序 。 

在 这 些 命令 执行 的 同时 ， 我 们 在 另 一 个 系统 上 运行 ttpdump 命令 ， 并 观察 交换 的 流量 信 
息 。 使 用 -e 选项 可 以 显示 MAC 地 址 (这 个 例子 中 是 48 位 以 太 网 地 址 )。 

下 面 列 出 的 内 容 包 含 来 自 trpdump 的 输出 。 我 们 删除 了 输出 的 最 后 4 行 ， 它们 用 于 终止 
连接 (我 们 将 在 第 13 章 中 详细 讨论 )， 但 与 这 里 的 讨论 无 关 。 注 意 ,不 同系 统 中 的 tcpdump 
版 本 提供 的 输出 细节 可 能 稍 有 不 同 。 
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Linux# tcpdump -e 


1 0.0 O:0:c0:6£:2d:40 fF:ff:ff:ff:Ff:ff arp 60: 
arp who-has 10.0.0.3 tell 10.0.0.56 
2 0.002174 (0.0022)0:0:c0:c2:9b:26 0:0:c0:6£:2d:40 arp 60: 


arp reply 10.0.0.3 is-at 0:0:c0:c2:9b:26 


3 0.002831 (0.0007)0:0:c0:6£:2d:40 0:0:c0:c2:9b:26 ip 60: 
10.0.0.56.1030 > 10.0.0.3.www: S 596459521:596459521(0) 
win 4096 <mss 1024> [tos 0x10] 

4 0.007834 (0.0050)0:0:c0:c2:9b:26 0:0:c0:6f:2d:40 ip 60: 
10.0.0.3.www > 10.0.0.56.1030: S 3562228225:3562228225(0) 
ack 596459522 win 4096 <mss 1024> 

5 0.009615 (0.0018)0:0:c0:6£:2d:40 0:0:c0:c2:9b:26 ip 60: 
10.0.0.56.1030 > 10.0.0.3.discard: . ack 1 win 4096 [tos 0x10] 


在 分 组 1 中 ， 源 硬件 地 址 为 0:0:c0:6f:2d:40。 目 的 硬件 地 址 为 储 住 佳 侍 储 任 ， 它 是 一 个 
以 太 网 广播 地 址 。 同 一 广播 域 (在 同一 局 域 网 或 VLAN 中 的 所 有 主机 ， 无 论 它们 是 否 运行 
TCP/IP) 中 的 所 有 以 太 网 接口 接收 并 处 理 该 帧 ， 如 图 4-1 所 示 。 分 组 1 的 下 一 个 输出 字段 为 
arp， 意 味 着 帧 类 型 字段 为 0x0806， 表 明 它 是 ARP 请 求 或 ARP 应 答 。 在 前 5 个 分 组 中 ，arp 
All ip 后 面 打 印 的 值 60 是 以 太 网 帧 的 长 度 。ARP 请 求 或 ARP 应 答 的 大 小 是 42 字 节 (ARP 消 
息 为 28 字 节 ， 以 太 网 头 部 为 14 字 节 )。 每 个 帧 均 填 充 为 最 小 以 太 网 帧 : 60 字 节 数据 和 4 字 
节 CRC ( 见 第 3 章 )。 

分 组 1 的 下 一 部 分 (EN arp who-has) 用 于 标识 该 帧 是 ARP 请 求 ， 目 的 地 址 是 IPv4 地 址 
10.0.0.3， 源 地 址 是 IPv4 地 址 10.0.0.56。tcpdump 显示 默认 IP 地 址 对 应 的 主机 名 ， 但 在 这 里 
没有 显示 (由 于 没有 为 它们 建立 反 向 DNS BRAY; 第 11 章 介 绍 DNS 的 细节 )。 接 下 来 ,我 们 
使 用 -n 选项 查看 ARP 请 求 中 的 IP 地址 ， 无 论 它们 是 否 进行 DNS 映射 。 

我 们 从 分 组 2 中 看 到 ， 虽 然 ARP 请 求 是 广播 的 ， 但 ARP 应 答 的 目的 地 址 是 ( 单 播 ) 
MAC 地 址 0:0:c0:6f:2d:40。 因 此 ，ARP 应 答 是 直接 发 送 到 请 求 主 机 ， 它 并 不 是 通常 的 广播 
(在 4.8 节 的 一 些 情况 下 ， 这 个 规则 可 能 会 改变 ) 。tcpdump 显示 出 该 帧 的 ARP WA, ， 以 及 响 
应 者 的 IPv4 地 址 和 硬件 地 址 。 第 3 行 是 请 求 建立 连接 的 第 一 个 TCP 段 。 其 目的 硬件 地 址 属 
于 目的 主机 (10.0.0.3 )。 我 们 将 在 第 13 章 涉及 这 部 分 的 细节 。 

对 于 每 个 分 组 ， 分 组 号 后 面 的 数字 是 tcpdump 接收 分 组 时 的 相对 时 间 ( 秒 )。 除 第 一 个 
之 外 的 每 个 分 组 都 包含 从 前 一 时 间 到 现在 的 时 间 差 ( 秒 )， 该 值 放 在 括号 中 。 我 们 可 看 到 发 
送 ARP 请 求 和 接收 ARP 应 答 之 间 的 时 间 约 为 2.2ms。 第 一 个 TCP 段 在 此 后 0.7ms 发 送 。 在 
这 个 例子 中 ，ARP 动态 地 址 解析 的 开销 少 于 3ms。 注 意 ， 如 果 主 机 10.0.0.3 的 ARP 表 项 在 
10.0.0.56 的 ARP RFF PRAM, RPM ARP 交换 并 不 会 发 生 ， 最 初 的 TCP 段 可 能 已 使 
用 目的 以 太 网 地 址 立即 发 送 。 

有 关 tcpdump 输出 的 一 个 微妙 问题 是 ， 在 向 10.0.0.56 (第 4 行 ) 发 送 自己 的 第 一 个 TCP 
段 之 前 ， 我 们 没 看 到 来 自 10.0.0.3 的 ARP 请 求 。10.0.0.3 在 自己 的 ARP 缓存 中 可 能 已 有 一 个 
10.0.0.56 的 条 目 ， 通 常 当 系统 接收 到 发 送 给 它 的 ARP 请 求 时 ， 除 了 发 送 ARP 应 答 外 ， 它 还 
会 在 ARP 缓存 中 保存 请 求 者 的 硬件 地 址 和 IP 地 址 。 这 是 一 个 基于 逮 辑 假设 的 优化 ， 如 果 请 
求 者 发 送 一 个 数据 报 ， 该 数据 报 的 接收 者 可 能 发 送 一 个 应 答 。 


4.5.2 ”对 一 个 不 存在 主机 的 ARP 请 求 
如 果 ARP 请 求 中 指定 的 主机 关闭 或 不 存在 ， 将 会 发 生 什 么 ? 为 了 查看 这 种 情况 ， 我们 
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尝试 访问 一 个 不 存在 的 本 地 IPv4 地 址 ， 其 前 缀 对 应 本 地 子 网 ， 但 没有 主机 使 用 该 地 址 。 在 
这 个 例子 中 ， 我 们 使 用 IPv4 地 址 10.0.0.99。 


Linux% date ; telnet 10.0.0.99 ; date 

Fri Jan 29 14:46:33 PST 2010 

Trying 10.0.0.99... 

telnet: connect to address 10.0.0.99: No route to host 
Fri Jan 29 14:46:36 PST 2010 3s after previous date 


Linux% arp -a 
? (10.0.0.99) at <incomplete> on eth0 


这 是 tepdump 的 输出 : 


Linux# tcpdump -n arp 

1 21:12:07.440845 arp who-has 10.0.0.99 tell 10.0.0.56 
2 21:12:08.436842 arp who-has 10.0.0.99 tell 10.0.0.56 
3 21:12:09.436836 arp who-has 10.0.0.99 tell 10.0.0.56 


由 于 我 们 已 知 使 用 广播 地 址 发 送 ARP 请 求 ， 因 此 本 次 并 没有 指定 -e 选项 。ARP 请 求 的 
频率 接近 每 秒 一 次 ， 这 是 [RFC1122] 建议 的 最 大 值 。Windows 系统 中 (没有 给 出 图 示 ) 的 测 
试 显示 出 不 同 的 行为 。 不 是 3 个 请 求 之 间 各 间隔 1 秒 ， 而 是 根据 使 用 的 应 用 程序 或 其 他 协议 
改变 间隔 。 对 于 ICMP 和 UDP (分 别 见 第 8 章 和 第 10 章 )， 使 用 的 间隔 约 为 5 秒 ， 而 TCP 使 
用 的 间隔 为 10 秒 。 对 于 TCP， 在 TCP 放弃 尝试 建立 一 条 连接 之 前 ，10 秒 间 隔 足 以 发 送 2 个 
无 须 应 答 的 ARP 请 求 。 


4.6 ARP 缓存 超时 


超时 通常 与 ARP 缓存 中 的 每 个 条 目 相关 (我 们 在 后 面 将 会 看 到 ，arp 命令 允许 管理 员 设 
置 缓存 条 目 永 远 不 超时 )。 在 大 多 数 实 现 中 ， 完 整 条 目的 超时 为 20 分 钟 ， 而 不 完整 条 目的 
超时 为 3 分 钟 (我 们 在 前 面 的 例子 中 看 到 一 个 不 完整 条 目 ， 它 强迫 执行 一 次 到 不 存在 主机 的 
ARP 请 求 )。 这 些 实现 通常 在 每 次 使 用 一 个 条 目 后 为 它 重新 启动 20 分 钟 的 超时 。[RFC1122] 
是 描述 主机 需求 的 RFC， 它 规定 每 个 条 目 即使 在 使 用 也 应 启动 超时 ,但 很 多 实现 并 不 这 样 
做 ， 它 们 在 每 次 使 用 条 目 后 重新 启动 超时 。 

注意 ， 这 是 关于 软 状 态 的 一 个 重要 例子 。 软 状态 是 指 在 超时 到 达 前 没有 更 新 而 被 丢弃 
的 信息 。 如 果 网 络 条 件 发 生 改变 ， 软 状态 有 助 于 启动 自动 重新 配置 ， 因 此 很 多 Internet 协议 
使 用 软 状态 。 软 状态 的 成 本 是 协议 必须 刷新 状态 以 避免 过 期 。 在 一 些 协议 设计 中 ， 经 常 包括 
“ 软 状 态 刷 新 ”， 以 保持 软 状态 的 活跃 。 


4.7 代理 ARP 


代理 ARP [RFC1027] 使 一 个 系统 (通常 是 一 台 专 门 配置 的 路 由 器 ) 可 回答 不 同 主机 的 
ARP 请 求 。 它 使 ARP 请 求 的 发 送 者 认为 做 出 响应 的 系统 就 是 目的 主机 ， 但 实际 上 目的 主机 
可 能 在 其 他 地 方 (或 不 存在 )。ARP 代理 并 不 常见 ， 通 常 应 尽量 避免 使 用 它 。 

代理 ARP 也 被 称 为 混杂 ARP 或 ARP 黑客。 这 些 名 称 来 自 ARP 代理 的 历史 用 途 : 两 个 
物理 网 络 相互 隐蔽 自己 。 在 这 种 情况 下 ， 两 个 物理 网 络 可 使 用 相同 的 IP 前 级 ， 只 要 将 中 间 的 
路 由 器 配置 为 一 个 代理 ARP， 在 一 个 网 络 中 由 代理 响应 对 其 他 网 络 中 主机 的 ARP 请 求 。 这 
种 技术 可 用 于 向 一 组 主机 隐藏 另 一 组 主机 。 从 前 ， 这 样 做 有 两 个 常见 原因 : 有 些 系统 无 法 进 
行 子 网 划分 ， 有 些 系统 使 用 比较 旧 的 广播 地 址 (全 0 的 主机 ID， 而 不 是 当前 的 全 1 的 主机 
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ID). 

Linux 支持 一 种 称 为 自动 代理 ARP 的 功能 。 它 可 通过 在 文件 /proc/sys/net/ipv4/conf/*/ 
proxy_arp 中 写 人 字符 1， 或 使 用 sysctl 命令 来 启用 。 它 支持 使 用 代理 ARP 功能 ， 而 不 必 为 
被 代理 的 每 个 可 能 的 IPv4 地 址 手工 输入 ARP. 条 目 。 这 样 做 允许 自动 代理 一 个 地 址 范围 ， 而 
不 是 单个 地 址 。 


4.8 免费 ARP 和 地 址 冲突 检测 

ARP 的 另 一 个 功能 被 称 为 免费 ARP。 它 发 生 在 一 台 主 机 发 送 ARP 请 求 以 寻找 自己 的 地 
址 时 。 它 通常 出 现在 启动 时 ， 当 接口 被 配置 为 “上 行 ”时 常 这 样 做 。 下 面 是 一 个 例子 ,在 
台 Linux 机 器 上 跟踪 显示 Windows 主机 的 启动 : 


Linux# tcpdump -e -n arp 
í 0.0 Daose036E322G340 ffrfE:EE:fE EEs fE arp 60: 
arp who-has 10.0.0.56 tell 10.0.0.56 


(我 们 为 tcpdump 增加 -mn 标志 ， 以 打印 数字 化 的 点 分 十 进 制 地 址 而 不 是 主机 名 。) 就 
ARP 请 求 字段 而 言 ， 发 送 方 协议 地 址 和 目的 协议 地 址 相同 : 10.0.0.56。 另 外 ， 以 太 网 头 部 中 
的 源 地 址 字段 被 tcpdump 显示 为 0:0:c0:6f2d:40， 它 等 于 发 送 方 硬件 地 址 。 免 费 ARP 需要 达 
到 两 个 目标 : 

1. 允许 一 台 主 机 确定 男 一 台 主 机 是 否 配 置 相 同 的 IPv4 地 址 。 发 送 免 费 ARP 的 主机 并 不 
期 望 它 的 请 求 获得 应 答 。 但 是 ， 如 果 它 接收 到 一 个 应 答 ， 通 常 显示 的 是 错误 消息 “从 以 太 网 
地 址 …… 发 送 的 重复 IP 地 址 ”。 这 是 对 系统 管理 员 和 用 户 的 警告 ， 在 同一 广播 域 (例如 局 域 
网 或 VLAN) 中 有 一 个 系统 配置 出 错 。 

2. 如 果 发 送 免费 ARP 的 主机 已 改变 硬件 地 址 (关闭 主机 或 替换 接口 卡 ， 然 后 重新 启动 
主机 )， 该 帧 导致 任何 接收 广播 并 且 其 缓存 中 有 该 条 目的 其 他 主机 ， 将 该 条 目 中 的 旧 硬 件 地 
址 更 新 为 与 该 帧 一 致 。 如 前 面 所 述 ， 如 果 一 台 主 机 接收 到 一 个 ARP 请 求 ， 该 请 求 来 自 一 个 
已 存在 接收 方 缓存 中 的 IPv4 地 址 ， 则 缓存 条 目 更 新 为 ARP 请 求 中 发 送 方 的 硬件 地 址 。 这 由 
接收 到 ARP 请 求 的 主机 完成 ， 免 费 ARP 正好 利用 这 个 特性 。 

虽然 免费 ARP 提供 的 一 些 迹象 显示 ， 多 个 站 可 尝试 使 用 相同 IPv4 地 址 ， 但 它 实 际 上 没 
有 对 这 种 情况 提供 解决 机 制 (除了 显示 一 个 消息 ， 实 际 由 系统 管理 员 完成 )。 为 了 解决 这 个 
问题 ，[RFC5227] 描述 了 IPv4 地 址 冲突 检测 (ACD). ACD 定义 了 ARP 探测 分 组 和 ARP 通 
告 分 组 。 ARP 探测 分 组 是 一 个 ARP 请 求 分 组 ， 其 中 发 送 方 协议 (IPv4 ) 地 址 字段 被 设置 为 0。 
探测 分 组 用 于 查看 一 个 候选 IPv4 地 址 是 否 被 广播 域 中 的 任何 其 他 系统 所 使 用 。 通 过 将 发 送 
方 协议 地 址 字段 设置 为 0， 避 免 候 选 IPv4 地 址 被 另 一 台 主 机 使 用 时 的 缓存 污染 ， 这 是 它 与 免 
费 ARP 工作 方式 的 一 个 差别 。ARP 通告 与 ARP 探测 相同 ， 除 了 其 发 送 方 协议 地 址 和 目的 协 
议 地 址 字段 被 填充 为 候选 IPv4 地 址 外 。 它 用 于 通告 发 送 方 使 用 候选 IPv4 地 址 的 意图 。 

为 了 执行 ACD， 当 一 个 接口 被 启用 或 从 睡眠 中 唤醒 ， 或 一 个 新 链 路 建立 (例如 ， 当 一 个 
新 的 无 线 网 络 关联 建立 ) 时 ， 这 人 台 主 机 发 送 一 个 ARP 探测 分 组 。 在 发 送 3 个 探测 分 组 之 前 ， 
首先 需要 等 待 一 个 随机 时 间 (范围 为 0 ~ 1 秒 ， 均 匀 分 布 )。 当 多 个 系统 同时 启用 时 ， 通 过 
延迟 来 避免 启用 带 来 的 拥塞 ， 否 则 都 立即 执行 ACD ， 这 将 导致 网 络 流量 激增 。 探 测 分 组 之 
间 存 在 一 个 随机 的 时 间 间 距 ， 大 约 1 ~ 2 秒 的 延迟 (均匀 分 布 )。 

当 请 求 站 发 送 自己 的 探测 时 ， 它 可 能 接收 到 ARP 请 求 或 应 答 。 对 其 探测 的 应 答 表 明 其 
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他 站 已 使 用 候选 IP 地址 。 从 不 同系 统 发 送 的 请 求 ， 其 目的 协议 地 址 字段 中 包含 相同 的 候选 
IPv4 地 址 ， 表 明 其 他 系统 也 在 同时 尝试 获得 候选 IPv4 地 址 。 在 这 两 种 情况 下 ， 该 系统 将 会 
显示 一 个 地 址 冲突 消息 ， 并 采用 其 他 可 选 地 址 。 例 如 ， 当 使 用 DHCP ( 见 第 6 章 ) 分 配 地 址 
时 ， 这 是 推荐 的 行为 。[RFC5227] 对 尝试 获得 地 址 设置 了 10 次 的 冲突 限制 ， 在 请 求 的 主机 
进入 限 速 阶段 之 前 ， 它 被 允许 每 60 秒 执行 一 次 ACD ， 直 至 成 功 。 

根据 前 面 所 描述 的 过 程 ， 如 果 发 送 请 求 的 主机 没有 发 现 冲突 ， 它 会 间隔 2 秒 向 广播 域 中 
发 送 2 个 ARP 通告 ， 以 表明 它 现 在 使 用 这 个 IPv4 地 址 。 在 这 个 通告 中 ， 发 送 方 协议 地 址 和 
目的 协议 地 址 字段 被 设置 为 其 声称 的 地 址 。 发 送 这 些 通告 的 目的 是 确保 更 新 缓存 地 址 映射 ， 
以 正确 反映 发 送 方 当 前 使 用 的 地 址 。 

ACD 被 认为 是 一 个 持续 的 过 程 ， 这 是 它 与 免费 ARP 的 区 别 。 当 一 台 主 机 通告 它 正 使 用 
的 地 址 后 ， 它 会 继续 检查 输入 的 ARP 流量 (请求 和 应 答 )， 查 看 自己 的 地 址 是 否 出 现在 发 送 
方 协议 地 址 字段 中 。 如 果 是 的 话 ， 说 明 其 他 系统 与 自己 在 使 用 相同 的 地 址 。 在 这 种 情况 下 ， 
[RFC5227] 提供 了 3 种 可 能 的 解决 方案 : 停止 使 用 这 个 地 址 ; 保留 这 个 地 址 ， 但 发 送 一 个 “ 防 
御 性 ”ARP 通告 ， 如 果 冲 突 继续 ， 则 停止 使 用 它 ; 不 理会 冲突 ， 仍 继续 使 用 。 对 于 最 后 一 个 
选择 ， 仅 建议 那些 真正 需要 一 个 固定 、 稳 定 地 址 的 系统 (例如 打印 机 或 路 由 器 等 嵌入 式 设备 ) 
使 用 。 

[RFC5227] 还 说 明了 使 用 链 路 层 广 播发 送 ARP 应 答 的 潜在 好 处 。 虽 然 这 不 是 传统 的 
ARP 工作 方式 ,但 同一 网 段 中 所 有 站 需 处 理 ARP 流量 时 ， 这 样 做 可 带 来 一 些 好 处 。 广 播 应 
等 可 以 更 快 地 执行 ACD， 这 是 由 于 所 有 站 都 会 注意 到 这 个 应 答 ， 并 在 发 现 冲 突 时 使 自己 的 
缓存 无 效 。 


49 arp 命令 


在 Windows 和 Linux 中 ， 我 们 使 用 带 有 -a 标志 的 arp 命令 显示 ARP 缓存 中 的 所 有 条 目 
(在 Linux 上 ， 我 们 可 不 使 用 -a 而 获得 类 似 信 息 )。 超 级 用 户 或 管理 员 可 指定 -d 选项 来 删除 
ARP 缓存 中 的 条 目 ( 这 在 运行 一 些 例子 前 用 于 强制 执行 一 次 ARP 交换 。) 

我 们 也 可 以 使 用 -s 选项 增加 条 目 。 它 需要 一 个 IPv4 地 址 (或 使 用 DNS 从 IPv4 地 址 转 
换 的 主机 名 ) 和 一 个 以 太 网 地 址 。 这 个 IPv4 地 址 和 以 太 网 地 址 作为 一 个 条 目 被 添加 在 缓存 
中 。 这 个 条 目 是 半 永 久 性 的 ( 即 它 在 缓存 中 不 会 超时 ,但 在 系统 重启 时 消失 )。 

Linux 版 本 的 arp LE Windows 版 本 提供 更 多 功能 。 当 在 命令 行 结尾 使 用 关键 字 temp, J 
使 用 -s 增加 一 个 条 目 时 ， 这 个 条 目 被 认为 是 临时 的 ， 并 与 其 他 ARP 条 目 一 样 会 超时 。 当 在 
命令 行 结尾 使 用 关键 字 pub 并 使 用 -s 时 ， 系 统 对 该 条 目 做 出 ARP 应 答 。 系 统 对 ARP 请 求 的 
IPv4 地 址 以 相应 的 以 太 网 地 址 来 应 答 。 如 果 通 告 地 址 是 系统 自己 的 地 址 之 一 ， 该 系统 可 作为 
一 个 指定 IPv4 地 址 的 代理 ARP ( 见 4.7 节 )。 如 果 arp -s 用 于 启用 代理 ARP，Linux 对 指定 
地 址 做 出 应 答 Æ /proc/sys/net/ipv4/conf/*/ proxy_arp 文件 中 写 人 0。 


4.10 使 用 ARP 设置 一 台 和 藤 入 式 设备 的 IPv4 地 址 


随 着 越 来 越 多 的 嵌入 式 设备 与 以 太 网 、TCP/P 协议 兼容 ,那些 无 法 直接 输入 网 络 配置 信 
息 的 联网 设备 越 来 越 普遍 (例如 ， 它 们 没有 键盘 ， 难 以 输入 自己 使 用 的 IP 地 址 )。 这 些 设备 
通常 采用 以 下 两 种 方式 之 一 配置 : 一 种 是 使 用 DHCP 自动 分 配 地 址 和 其 他 信息 ( 见 第 6 章 ) ; 
另 一 种 是 使 用 ARP 设置 IPv4 地 址 ， 虽 然 这 种 方法 并 不 常见 。 
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它 的 基本 思路 是 为 设备 手动 建立 一 个 ARP 映射 (使 用 arp -s 命令 )， 然 后 向 这 个 地 址 发 送 一 
个 耳 分 组 。 由 于 相应 ARP 条 目 已 存在 ， 因 此 不 会 产生 ARP 请 求 / 应答。 相反 ,硬件 地 址 可 
以 立即 使 用 。 当 然 ， 设 备 的 以 太 网 (MAC) 地 址 必须 已 知 。 它 通常 印 在 设备 上 ， 有 时 兼作 制 
造 商 的 设备 序列 号 。 当 设备 接收 到 一 个 目标 为 自身 硬件 地 址 的 分 组 时 ， 这 个 数据 报 包含 的 目 
的 地 址 用 于 指定 其 初始 IPv4 地 址 。 此 后 ， 这 台 设 备 可 用 其 他 方式 〈 例 如 通过 一 个 虑 人 式 Web 
服务 器 ) 完成 配置 。 


4.11 与 ARP 相关 的 攻击 


目前 已 有 一 系列 涉及 ARP 的 攻击 。 最 直接 的 是 使 用 代理 ARP 功能 假扮 主机 ， 对 ARP 
请 求 做 出 应 答 。 如 果 受 害 主机 不 存在 ， 这 很 直观 ， 而 且 可 能 难以 发 现 。 如 果 该 主机 仍 在 运 
ÍT, 这 被 认为 更 困难 ， 因 为 每 个 ARP 请 求 可 能 有 多 个 应 答 ， 这 样 比较 容易 发 现 。 

一 种 更 巧妙 的 攻击 可 被 ARP 触发 ， 它 涉及 一 台 主 机 被 连接 到 多 个 网 络 ， 并 且 一 个 接口 
的 ARP 条 目 被 其 他 ARP 表 “ 遗 漏 ” 的 情况 ， 这 是 由 ARP 软件 的 一 个 错误 造成 的 。 利 用 这 种 
漏洞 可 将 流量 引导 到 错误 网 段 上 。Linux 提供 了 一 个 直接 影响 该 行为 的 方式 ， 可 通过 修改 文 
{F /proc/sys/net/ipv4/conf/*/arp_ filter 实现 。 如 果 将 数值 1 写 入 这 个 文件 ， 当 输入 的 ARP 请 
求 到 达 一 个 接口 时 ， 就 进行 一 次 他 转发 检查 。 这 时 需要 查找 请 求 者 的 IP 地 址 ， 以 确定 哪个 
接口 将 用 于 发 送 返回 的 IP 数据 报 。 如 果 到 达 的 ARP 请 求 与 返回 发 送 方 的 IP 数据 报 使 用 不 同 
的 接口 ， 这 个 ARP 应 答 被 抑制 〈 触 发 它 的 ARP 请 求 被 丢弃 )。 

更 具 破 坏 性 的 ARP 攻击 涉及 静态 条 目 处 理 。 如 前 所 述 ， 当 查找 对 应 一 个 特定 IP 地 址 的 
LARA (MAC) 地 址 时 ， 静 态 条 目 可 用 于 避免 ARP 请 求 /应 答 。 这 种 条 目 已 被 用 于 尝试 增 
强 安 全 性 。 它 的 思路 是 在 ARP 缓存 中 对 重要 主机 使 用 静态 条 目 ， 以 快速 检测 任何 针对 该 他 
地 址 的 主机 欺骗 。 不 幸 的 是 ， 大 多 数 ARP 实现 通常 用 ARP 应 答 提 供 的 条 目 代 替 静 态 缓存 条 
目 。 这 样 的 后 果 是 ， 接 收 到 ARP 应 答 (即使 它 没 发 送 ARP 请 求 ) 的 主机 被 欺骗 ， 并 使 用 攻 
击 者 提供 的 条 目 代 替 自己 的 静态 条 目 。 
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ARP 是 TCP/IP 实现 中 的 一 个 基本 协议 ， 但 它 通常 在 应 用 程序 或 用 户 没有 察觉 的 情况 下 
运行 。ARP 用 于 确定 本 地 可 达 的 IPv4 子 网 使 用 的 IPv4 地 址 对 应 的 硬件 地 址 。 它 在 数据 报 的 
目的 地 与 发 送 方 处 于 同一 子 网 时 使 用 ， 还 用 于 数据 报 的 目的 地 不 在 当前 子 网 (在 第 5 章 详细 
说 明 ) 时 将 其 转发 到 一 台 路 由 器 。ARP 缓存 是 其 运行 的 基础 ， 我 们 可 使 用 arp 命令 查看 和 处 
理 缓存 。 缓 存 中 每 个 条 目 都 有 一 个 计时 器 ， 用 于 清除 不 完整 的 条 目 和 完整 的 条 目 。arp 命令 
可 显示 和 修改 ARP 缓存 中 的 条 目 。 

我 们 深入 了 解 特殊 ARP 的 正常 运行 : 代理 ARP (一 台 路 由 器 回答 主机 通过 另 一 台 路 由 
器 接口 访问 的 ARP 请 求 ) 和 免费 ARP (发 送 自己 拥有 的 耳 地 址 的 ARP 请 求 ， 通 常用 于 引 
导 )。 我 们 还 讨论 了 IPv4 地 址 冲突 检测 ， 采 用 一 种 持续 运行 的 类 似 免费 ARP 的 交换 ,来 避 
免 在 同一 广播 域 中 地 址 重复 。 最 后 ， 我 们 讨论 了 一 系列 涉及 ARP 的 攻击 。 如 果 高 层 协议 没 
有 强大 的 安全 措施 ， 这 可 能 会 导致 高 层 协议 出 现 问题 ( 见 第 18 章 )。 
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IP 是 TCP/IP 协议 族 中 的 核心 协议 。 所 有 TCP, UDP, ICMP 和 IGMP 数据 都 通过 IP 数 
据 报 传输 。IP 提供 了 一 种 尽力 而 为 、 无 连接 的 数据 报 交 付 服 务 。 "尽力 而 为 ”的 含义 是 不 保 
证 他 数据 报 能 成 功 到 达 目 的 地 。 虽 然 P 不 是 简单 丢弃 所 有 不 必要 流量 ,但 它 也 不 对 自己 尝 
试 交付 的 数据 报 提供 保证 。 当 某 些 错误 发 生 时 ， 例 如 一 台 路 由 器 临时 用 尽 缓冲 区 ，IP 提供 一 
个 简单 的 错误 处 理 方 法 : 丢弃 一 些 数据 (通常 是 最 后 到 达 的 数据 报 )。 任 何 可 靠 性 必须 由 上 
层 (例如 TCP) 提供 。IPv4 和 IPv6 都 使 用 这 种 尽力 而 为 的 基本 交付 模式 。 

“无 连接 ”意味 着 IP 不 维护 网 络 单元 ( 即 路 由 器 ) 中 数据 报 相 关 的 任何 链接 状态 信息 ， 
每 个 数据 报 独立 于 其 他 数据 报 来 处 理 。 这 也 意味 着 IP 数据 报 可 不 按 顺序 交付 。 如 果 一 个 源 
主机 向 同一 目的 地 发 送 两 个 连续 的 数据 报 (第 一 个 为 A， 第 二 个 为 B)， 每 个 数据 报 可 以 独 
立 路 由 ， 通 过 不 同 路 径 ， 并且 B 可 能 在 A 之 前 到 达 。IP 数据 报 也 可 能 发 生 其 他 问题 : 它们 
可 能 在 传输 过 程 中 被 复制 ， 可 能 改变 内 容 从 而 导致 错误 。 此 外 ，IP 之 上 的 一 些 协议 (通常 是 
TCP) 需要 处 理 这 些 潜在 问题 ， 以 便 为 应 用 提供 无 差错 的 交付 。 

本 章 我 们 首先 看 一 下 IPv4 (ULE 5-1 ) 和 IPv6 (WE 5-2) 头 部 中 的 字段 ， 然 后 描述 IP 
如 何 转发 [RFC0791] 是 针对 IPv4 的 正式 规范 。 描 述 IPv6 的 一 系列 RFC 从 [RFC2460] 开始 。 
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图 5-1 IPv4 数据 报 。 头 部 大 小 可 变 , 4 位 的 IHL 字段 被 限制 为 15 个 32 位 字 (60 字 节 )。 一 个 典型 的 
IPv4 头 部 包含 20 FE (没有 选项 )。 源 地 址 和 目的 地 址 的 长 度 为 32 位 。 第 二 个 32 位 字 的 大 部 分 
用 于 IPv4 分 片 功能 。 头 部 校 验 和 有 助 于 确保 头 部 字段 被 正确 发 送 到 目的 地 ,但 不 保护 数据 内 容 
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图 5-2 IPv6 头 部 大 小 固定 (40 字 节 )， 并 包含 128 位 源 地 址 和 目的 地 址 。 下 一 个 头 部 字段 用 于 说 明 
IPv6 头 部 之 后 其 他 扩展 头 部 的 存在 和 类 型 ， 它 们 形成 一 条 包括 特殊 扩展 或 处 理 指令 的 头 部 链 。 
应 用 数据 跟 在 这 条 头 部 链 之 后 ， 通 常 紧 跟 着 是 一 个 传输 层 头 部 


5.2 1IPv4 头 部 和 IPv6 头 部 


图 5-1 显示 了 IPv4 数据 报 格式 。 正 常 的 IPv4 头 部 大 小 为 20 字 节 ， 除 非 存在 选项 (这 种 
情况 很 少见 )。IPv6 头 部 长 度 是 它 的 两 倍 ， 但 没有 任何 选项 。 它 可 以 有 扩展 头 部 ， 可 提供 类 
似 的 功能 ， 我们 将 在 后 面 看 到 。 在 关于 P 头 部 和 数据 报 的 印象 中 ， 最 高 有 效 位 在 左 侧 且 编 
号 为 0, 一 个 32 位 值 的 最 低 有 效 位 在 右 侧 且 编 号 为 31。 

一 个 32 位 值 的 4 字 节 按 以 下 顺序 传输 : 首先 是 0 ~ 7 位 ， 然 后 是 8 ~ 15 位 ， 接 着 是 
16 ~ 23 位 ， 最 后 是 24 ~ 31 位 。 这 就 是 所 谓 的 高 位 优先 字 节 序 ， 它 是 TCP/IP 头 部 中 所 有 二 
进 制 整数 在 网 络 中 传输 时 所 需 的 字 节 顺序 。 它 也 被 称 为 网 络 字 节 序 。 计 算 机 的 CPU 使 用 其 
他 格式 存储 二 进 制 整数 ， 例 如 大 多 数 PC 使 用 低位 优先 字 节 序 ， 在 传输 时 必须 将 头 部 值 转换 
为 网 络 字 节 序 ， 并 在 接收 时 再 转换 回来 。 


5.2.1 IP 头 部 字段 


第 一 个 字段 (只 有 4 位 或 半 个 字 节 ) 是 版 本 字段 。 它 包含 IP 数据 报 的 版 本 号 : IPv4 为 4， 
IPv6 为 6。IPv4 头 部 和 IPv6 头 部 除 版 本 字段 位 置 相同 外 再 无 其 他 是 一 样 的 。 因 此 ， 这 两 个 
协议 不 能 直接 互 操作 * 主机 或 路 由 器 必须 分 别处 理 IPv4 或 IPv6 (或 两 者 ， 称 为 双 栈 )。 虽 然 
也 提出 并 发 展 了 其 他 IP: 版 本 ， 但 只 有 版 本 4 和 6 经 常 使 用 。IANA 负责 保存 这 些 版 本 号 的 正 
式 注 册 信息 [IV]. 

Internet 头 部 长 度 (IHL) 字段 保存 IPv4 头 部 中 32 位 字 的 数量 ， 包 括 任何 选项 。 由 于 它 
是 一 个 4 位 的 字段 ， 所 以 Pv 头 部 被 限制 为 最 多 15 个 32 位 字 ， 即 60 字 节 。 后 面 ， 我 们 将 
看 到 ， 这 种 限制 使 一 些 选 项 (例如 “记录 路 由 ”选项 ) 当前 几乎 无 法 使 用 。 这 个 字段 的 正常 
fA ( 当 没 有 选项 时 ) 是 5。IPv6 中 不 存在 这 个 字段 ， 其 头 部 长 度 固定 为 40 字 节 。 

在 头 部 长 度 之 后 ，IPv4[RFC0791] 的 最 初 规范 指定 了 一 个 服务 类 型 (ToS) FR, 
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IPv6[RFC2460] 指定 了 一 个 等 效 的 通信 类 型 字段 。 由 于 它们 从 来 没 被 广泛 使 用 ， 因 此 最 终 
这 个 8 位 长 的 字段 被 分 为 两 个 部 分 ， 并 由 一 组 RFC ( [RFC3260][RFC3168][RFC2474] 和 其 
他 RFC) 重新 定义 。 目 前 ， 前 6 位 被 称 为 区 分 服务 字段 ( DS 字段 )， 后 2 位 是 显 式 拥塞 通知 
(ECN) 字段 或 指示 位 。 现 在 ， 这 些 RFC 适用 于 IPv4 和 IPv6。 这 些 字段 被 用 于 数据 报 转发 时 
的 特殊 处 理 。 我 们 将 在 5.2.3 节 中 详细 讨论 它们 。 

总 长 度 字 段 是 IPv4 数据 报 的 总 长 度 ( 以 字 节 为 单位 )。 通 过 这 个 字段 和 IHL 字段 ， 我 们 
知道 数据 报 的 数据 部 分 从 哪里 开始 ， 以 及 它 的 长 度 。 由 于 它 是 一 个 16 位 的 字段 ， 所 以 IPv4 

183] 数据 报 的 最 大 长 度 (包括 头 部 ) 为 65 535 字 节 。 由 于 一 些 携 带 IPv4 数据 报 的 低层 协议 不 

能 (精确 ) 表达 自己 封装 的 数据 报 大 小 ， 所 以 需要 在 头 部 中 给 出 总 长 度 字 段 。 例 如 ， 以 太 网 
会 将 短 帧 填充 到 最 小 长 度 ( 64 字 节 )。 虽 然 以 太 网 最 小 有 效 载荷 为 46 F ( 见 第 3 章 ), 但 
一 个 IPv4 数据 报 也 可 能 会 更 小 (20 字 节 )。 如 果 没 有 提供 总 长 度 字 段 ，IPv4 实现 将 无 法 知 
道 一 个 46 字 节 的 以 太 网 帧 是 一 个 IP 数据 报 ， 还 是 经 过 填充 的 IP 数据 报 ， 这 样 可 能 会 导致 
混淆 。 

尽管 可 发 送 一 个 65535 FT HY IP HEIR, 但 大 多 数 链 路 层 (例如 以 太 网 ) 不 能 携带 这 
么 大 的 数据 ,除非 将 它 分 ( 拆 ) 成 更 小 的 片 。 另 外 ， 主 机 不 需要 接收 大 于 576 字 节 的 IPv4 数 
据 报 。( 在 IPv6 中 ， 主 机 需要 能 处 理 所 连 接 链 路 MTU 大 小 的 数据 报 ， 而 最 小 链 路 MTU 为 
1280 字 节 。) 很 多 使 用 UDP 协议 ( 见 第 10 章 ) 传输 数据 (例如 DNS, DHCP 等 ) 的 应 用 程序 ， 
限制 为 使 用 512 字 节 大 小 的 数据 ， 以 避免 576 字 节 的 IPv4 限制 。TCP 根据 额外 信息 ( 见 第 
15 章 ) 选择 自己 的 数据 报 大 小 。 

当 一 个 IPv4 数据 报 被 分 为 多 个 更 小 的 分 片 时 ， 每 个 分 片 自身 仍 是 一 个 独立 的 IP 数 据 
报 ， 总 长 度 字 段 反映 具体 的 分 片 长 度 。 第 10 章 中 将 详细 介绍 分 片 和 UDP。IPv6 头 部 不 支 
持 分 片 ， 其 长 度 可 由 负载 长 度 字 段 获 得 。 这 个 字段 提供 IPv6 数据 报 长 度 ， 不 包括 头 部 长 度 ， 
但 扩展 头 部 包括 在 负载 长 度 中 。 对 于 IPv4， 这 个 16 位 的 字段 限制 其 最 大 值 为 65 535。 对 
于 IPv6， 负 载 长 度 被 限制 为 64KB ， 而 不 是 整个 数据 报 。 另 外 ，IPv6 还 支持 一 个 超 长 数据 
报 选项 ( 见 5.3.1.2 节 )， 它 至 少 在 理论 上 提供 了 可 能 性 ， 即 单个 分 组 的 有 效 载荷 可 达到 4GB 
(4 294 967 295 ZT) ! 

标识 字段 帮助 标识 由 IPv4 主机 发 送 的 数据 报 。 为 了 避免 将 一 个 数据 报 分 片 和 其 他 数据 
报 分 片 混淆 ， 发 送 主机 通常 在 每 次 (从 它 的 一 个 IP 地 址 ) 发 送 数 据 报 时 都 将 一 个 内 部 计数 器 
加 1， 并 将 该 计数 器 值 复制 到 IPv4 标识 字段 。 这 个 字段 对 实现 分 片 很 重要 ， 因 此 我 们 将 在 第 
10 章 中 进一步 讨论 ， 另 外 还 会 讨论 标志 和 分 片 偏 移 字段 。 在 IPv6 中 ， 这 个 字段 显示 在 分 片 
扩展 头 部 中 ， 我 们 将 在 5.3.3 节 中 讨论 。 

生存 期 (TITL) 字段 用 于 设置 一 个 数据 报 可 经 过 的 路 由 器 数量 的 上 限 。 发 送 方 将 它 初始 
化 为 某 个 值 ( [RFC1122] 建议 为 64, 但 128 或 255 也 不 少见 )， 每 台 路 由 器 在 转发 数据 报时 
将 该 值 减 1。 当 这 个 字段 值 达 到 0 时 ， 该 数据 报 被 丢弃 ， 并 使 用 一 个 ICMP 消息 通知 发 送 方 

(SUS 8 章 )。 这 可 以 防止 由 于 出 现 不 希望 的 路 由 环 路 而 导致 数据 报 在 网 络 中 永远 循环 。 


注意 TTL 字段 最 初 指定 IP 数据 报 的 最 大 生存 期 在 几 秒 钟 内 ， 但 路 由 器 总 需要 将 
这 个 值 至 少 减 1。 实际 上 ， 当 前 路 由 器 在 正常 操作 下 通常 不 会 持 有 数据 报 超过 1 秒 
钟 ， 因 此 较 早 的 规则 现在 已 被 忽略 或 遗忘 ， 这 个 字段 在 IPv6 中 根据 实际 用 途 已 被 
重新 命名 为 跳 数 限制 。 
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IPv4 头 部 中 的 协议 字段 包含 一 个 数字 ， 表 示 数 据 报 有 效 载 荷 部 分 的 数据 类 型 。 最 常用 的 
值 为 17 (UDP) 和 6 (TCP)。 这 提供 了 多 路 分 解 的 功能 ， 以 便 IP 协议 可 用 于 携带 多 种 协议 
类 型 的 有 效 载荷 。 虽 然 该 字段 最 初 仅 用 于 指定 数据 报 封装 的 传输 层 协 议 ， 但 它 现在 用 于 识别 
其 中 封装 的 协议 是 否 为 一 种 传输 层 协 议 。 其 他 封装 也 是 可 能 的 ， 例 如 IPv4-in-IPv4 ( 值 为 4)。 
数字 分 配 页 面 [AN] 给 出 了 可 能 的 协议 字段 值 的 正式 列表 。IPv6 头 部 中 的 下 一 个 头 部 字段 给 
出 了 IPv4 中 的 协议 字段 。 它 用 于 指出 IPv6 头 部 之 后 的 头 部 类 型 。 这 个 字段 可 能 包含 由 IPv4 
协议 字段 定义 的 任何 值 ， 或 5.3 节 中 描述 的 IPv6 扩展 头 部 的 相关 值 。 

头 部 校 验 和 字段 仅 计算 IPv4 头 部 。 理 解 这 一 点 很 重要 ， 因 为 这 意味 着 P 协议 不 检查 
IPv4 数据 报 有 效 载荷 (例如 TCP 或 UDP 数据 ) 的 正确 性 。 为 了 确保 人 P 数据 报 的 有 效 载荷 部 
分 已 正确 传输 ， 其 他 协议 必须 通过 自己 的 数据 完整 性 检验 机 制 来 检查 重要 数据 。 我 们 看 到 ， 
封装 在 IP 中 的 几乎 所 有 协议 (ICMP, IGMP, UDP 和 TCP) 在 自己 头 部 中 都 有 一 个 涵盖 其 
头 部 和 数据 的 校 验 和 ， 也 涵盖 它们 认为 重要 的 IP 头 部 的 某 些 部 分 (一 种 “违反 分 层 ” 的 形 
式 )。 令 人 惊讶 的 是 ，IPv6 头 部 没有 任何 校 验 和 字段 。 


注意 IPv6 头 部 省 略 校 验 和 字段 是 一 个 有 争议 的 决定 。 这 个 行动 背后 的 理由 大 臻 
如 下 : 在 IP 头 部 中 ， 更 高 层 协 议 为 确定 正确 性 ， 必 须 计 算 它 们 自己 的 校 验 和 ， 这 
需要 涵盖 它们 认为 重要 的 数据 。IP 头 部 中 的 错误 带 来 的 后 果 是 : 数据 被 投递 到 错误 
的 目的 地 、 指 示 数 据 来 源 错误 ， 或 在 交付 过 程 中 错位 。 由 于 位 错误 比较 少见 (受益 
于 Internet 流量 的 光纤 传输 )， 而 且 其 他 字段 提供 了 更 有 力 的 确保 正确 性 的 机 制 (更 
高 层次 的 校 验 和 或 其 他 检查 )， 因 此 决定 从 IPv6 头 部 中 删除 这 个 字段 。 


大 多 数 使 用 校 验 和 的 其 他 Internet 相关 协议 也 使 用 该 校 验 和 计算 算法 ， 因 此 有 时 称 之 为 
Internet 校 验 和 。 注 意 ， 当 一 个 IPv4 数据 报 经 过 一 台 路 由 器 时 ，TTL 字段 减 1 带 来 的 结果 是 
其 头 部 校 验 和 必须 改变 。 我 们 将 在 5.2.2 节 详 细 讨 论 校 验 和 计算 方法 。 

每 个 IP 数据 报 包含 发 送 者 的 源 IP 地 址 和 接收 者 的 目的 IP 地 址 。 这 些 针 对 IPv4 AY 32 位 
地 址 和 针对 IPv6 的 128 位 地 址 ， 通 常 标识 一 台 计 算 机 的 一 个 接口 ， 但 组 播 地 址 和 广播 地 址 
( 见 第 2 章 ) 不 符合 本 规则 。 虽 然 一 个 32 位 地 址 可 容纳 看 似 很 多 Internet 实体 (2” 个 ), 但 
一 个 广泛 的 共识 是 这 个 数字 仍 不 够 ， 这 是 向 IPv6 迁移 的 一 个 主要 动机 。IPv6 的 128 位 地 址 
可 容纳 数量 庞大 的 Internet 实体 。[H05] 进行 了 重新 统计 ，IPv6 拥有 3.4 x 10*” 个 地 址 。 引 用 
[H05] 和 其 他 人 的 话 :“ 乐 观 估计 将 使 地 球 上 每 平方 米 表面 拥有 3911 873 538 269 506 102 个 
地 址 。” 这 确实 看 起 来 可 持续 很 长 一 段 时 间 。 


5.2.2 Internet 校 验 和 


Internet 校 验 和 是 一 个 16 位 的 数字 和 ， 它 能 以 相当 高 的 概率 确定 接收 的 消息 或 其 中 的 部 
分 内 容 是 否 与 发 送 的 相 匹 配 。 注 意 ,Internet 校 验 和 算法 与 常见 的 循环 宛 余 校 验 (CRC)[PB61] 
不 同 ， 后 者 提供 了 更 强 的 保护 功能 。 

为 了 给 输出 的 数据 报 计算 IPv4 头 部 校 验 和 ， 首 先 将 数据 报 的 校 验 和 字段 值 设 置 为 0。 然 
后 ， 对 头 部 〈 整 个 头 部 被 认为 是 一 个 16 位 字 的 序列 ) 计算 16 位 二 进 制 反 码 和 。 这 个 16 位 二 
进 制 反 码 和 被 存储 在 校 验 和 字段 中 。 二 进 制 反 码 加 法 可 通过 “循环 进位 (end-round-carry) 加 
法 ”实现 : 当 使 用 传统 (二进制 补 码 ) 加 法 产生 一 个 进位 时 ， 这 个 进位 以 二 进 制 值 1 加 在 高 
fii. FA 5-3 显示 了 这 个 例子 ,消息 内 容 使 用 十 六 进 制 表示 。 
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发 送 

消息 : E3 4F 23 96 44 27 99 F3 [00 00] 

二 进 制 补 码 和 : 1E4FF 

二 进 制 反 码 和 :  E4FF + 1 = E500 

二 进 制 反 码 : ~ (E500) = ~(1110 0101 0000 0000)= 0001 1010 1111 1111 
=1AFF ( 校 验 和 ) 

接收 


消息 + RA = E34F + 2396 + 4427 + 99F3 + LAFF = E500 + 1AFF = FFFF 
~( 消息 + 校 验 和 ) = 0000 








5-3 Internet 校 验 和 是 一 个 被 校 验 数据 (如果 被 计算 的 字 节 数 为 奇数 ， 用 0 填充 ) 的 16 位 反 码 和 的 
反 码 。 如 果 被 计算 数据 包括 一 个 校 验 和 字段 ， 该 字段 在 进行 校 验 和 运算 之 前 被 设置 为 0， 然 后 
将 计算 出 的 校 验 和 填充 到 该 字段 。 为 了 检查 一 个 包含 校 验 和 字段 ( 头 部 、 有 效 载 荷 等 ) 的 数据 
输入 是 否 有 效 ， 需 要 对 整个 数据 块 (包括 校 验 和 字段 ) 同样 计算 校 验 和 。 由 于 校 验 和 字段 本 质 
上 是 其 余数 据 校 验 和 的 反 码 ， 对 正确 接收 的 数据 计算 校 验 和 应 产生 一 个 值 0 


当 一 个 IPv4 数据 报 被 接收 时 ， 对 整个 头 部 计算 出 一 个 校 验 和 ， 包 括 校 验 和 字段 自身 的 
值 。 假 设 这 里 没有 错误 ， 计 算出 的 校 验 和 值 为 0( 值 FFFF 的 反 码 )。 注 意 ， 对 于 任何 不 正常 
的 分 组 或 头 部 ,分 组 中 的 校 验 和 字段 值 不 为 FFFF。 如 果 是 这 样 ， 这 个 和 (在 发 送 方 的 最 后 一 
次 反 码 运 算 之 前 ) 将 为 0。 通 过 反 码 加 法 得 到 的 和 不 能 永远 为 0， 除 非 所 有 字 节 都 是 0， 这 在 
任何 合法 IPv4 头 部 中 都 不 可 能 出 现 。 当 发 现 一 个 头 部 出 错 (计算 的 校 验 和 不 为 0) 时 ，IPv4 
实现 将 丢弃 接收 到 的 数据 报 。 但 是 ， 不 会 生成 差错 信息 。 i i 
报 ， 并 在 必要 时 重新 传输 。 


5.2.2.1 Internet 校 验 和 的 数学 性 质 

在 数学 上 ，16 位 的 十 六 进 制 值 集合 V= {0001，…，FFFF} 与 其 反 码 和 运算 “+” 共 同 
形成 一 个 阿 贝尔 群 。 将 一 个 集合 和 一 个 运算 符 组 合 到 一 组 时 ， 必 须 符 合 以 下 性 质 : 闭 包 、 结 
合 性 、 存 在 一 个 恒 等 元 素 ， 以 及 存在 可 逆 。 要 形成 一 个 阿 贝 尔 (可 交换 的 ) 群 ， 还 必须 满足 
交换 性 。 如 果 我 们 仔细 观察 ， 可 看 到 所 有 特性 实际 上 都 服从 : 


o MF VPE X, Y, (X+ NEV [HE ] 
o WV PAE X, Y, Z, X+ (Y+Z)=(X+Y)+Z [结合 性 ] 
o 对 于 V PAE X, e+ X=X+e=X, Hp e= FFFF [ 恒 等 ] 
eM TV PRE X, ATX EVP, EX +X’ =e [ 可逆 ] 
o XF V PRET X, Y, (X+ Yy=(V+%) [交换 性 ] 


关于 集合 和 组 <F，+ >， 有 趣 的 是 我 们 已 删除 0000。 如 果 我 们 将 数字 0000 HARA 
V， 这 时 <V, + > 不 再 是 一 个 组 。 为 了 看 清 这 点 ， 我 们 首先 观察 0000 和 FFFF 作为 0 (加 性 
恒 等 ) 出 现在 使 用 “+” 的 运算 中 的 情况 。 例 如 ,AB12 + 0000 =AB12 =AB12 +FFFF, 但 是 ， 
在 一 个 组 中 只 能 有 一 个 恒 等 元 素 。 如 果 我 们 包含 元 素 12AB， 并 假设 恒 等 元 素 为 0000， 那 么 
我 们 就 需要 某 个 可 道 数 Y 使 得 (12AB + X") = 0000， 但 我 们 发 现 ， 在 刻 中 没有 满足 此 条 件 
的 闷 存 在 。 因 此 ， 我 们 需要 排除 0000 YEW <V, +> 中 的 恒 等 元 素 ， 通 过 将 它 从 集合 VPA 
除 ， 使 得 这 种 结构 成 为 一 个 满足 要 求 的 组 。 这 里 仅 对 抽象 代数 做 一 个 简单 介绍 ， 读 者 若 希 望 
详细 阅读 这 方面 内 容 ， 可 参考 Pinter [P90] 的 畅销 书 。 
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5.2.3 DS 字段 和 ECN (以 前 称 为 ToS 字 节 或 IPv6 流量 类 别 ) 


IPv4 头 部 的 第 3 和 第 4 字段 (IPv6 头 部 的 第 2 和 第 3 字段 ) 分 别 是 区 分 服务 (MH DS 
FH) MECN 字段 。 区 分 服务 ( 称 为 DiffServ) 是 一 个 框架 和 一 组 标准 ， 用 于 支持 Internet 
[RFC2474][RFC2475][RFC3260] 上 不 同类 型 的 服务 ( 即 不 只 是 尽力 而 为 服务 )。IP 数据 报 以 
某 种 方式 (通过 预定 义 模式 设置 某 些 位 ) 被 标记 ,使 它们 的 转发 不 同 于 (例如 以 更 高 的 优先 
级 ) 其 他 数据 报 。 这 样 做 可 能 导致 网 络 中 排队 延 时 的 增加 或 减少 ， 以 及 出 现 其 他 特殊 效果 
(可 能 与 ISP 收取 的 特殊 费用 相关 )。DS 字段 中 的 数字 称 为 区 分 服务 代码 点 (DSCP)。 “代码 
点 ” 指 的 是 预定 义 的 具有 特定 含义 的 位 。 在 通常 情况 下 ， 如 果 数 据 报 拥有 一 个 分 配 的 DSCP， 
它 在 通过 网 络 基础 设施 交付 过 程 中 会 保持 不 变 。 但 是 ， 某 些 策略 (例如 在 一 段 时 间 内 可 发 送 
多 少 个 高 优先 级 的 分 组 ) 可 能 导致 一 个 数据 报 中 的 DSCP 在 交付 过 程 中 改变 。 

当 通 过 一 台 具 有 内 部 排队 流量 的 路 由 器 时 ， 头 部 中 的 2 ECN 位 用 于 为 数据 报 标记 拥 
塞 标识 符 。 一 台 持 续 拥塞 的 具有 ECN 感知 能 力 的 路 由 器 在 转发 分 组 时 会 设置 这 两 位 。 这 种 
功能 的 设计 思路 是 ， 当 一 个 被 标记 的 分 组 被 目的 节点 接收 时 ， 有 些 协 议 (例如 TCP) 会 发 现 
分 组 被 标记 并 将 这 种 情况 通知 发 送 方 ， 发 送 方 随后 会 降低 发 送 速度 ， 这 样 可 在 路 由 器 因 过 
载 而 被 迫 丢 弃 流 量 之 前 缓解 拥塞 。 这 种 机 制 是 避免 或 处 理 网 络 拥塞 的 方法 之 一 ， 我们 将 在 
第 16 章 中 详细 探讨 。 虽 然 DS 字段 和 ECN 字段 并 不 密切 相关 ， 但 它们 被 用 作 代替 以 前 定义 
的 IPv4 服务 类 型 和 IPv6 流量 类 别 字段 。 因 此 ， 它 们 经 常 被 放 在 一 起 讨论 ,术语 “Tog 字 节 ” 
和 “流量 类 别 字 节 ” 仍 在 广泛 使 用 。 

尽管 原来 的 ToS 和 流量 类 别 字 节 没 得 到 广泛 支持 , 但 DS 字段 结构 仍 提供 了 一 些 对 它们 
的 兼容 能 力 。 为 了 对 其 如 何 工作 有 更 清楚 的 了 解 ， 我 们 首先 回顾 服务 类 型 字段 [RFC0791] 的 
原始 结构 ， 如 图 5-4 所 示 。 
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图 5-4 原来 的 IPv4 服务 类 型 和 IPv6 流量 类 别 字 段 结 构 。 优 先 级 子 字段 用 于 表示 哪些 分 组 具有 更 高 优 
先 级 ( 较 大 的 值 意味 着 更 高 的 优先 级 )。D、T 和 及 子 字段 分 别 用 于 表示 延 时 、 吞 吐 量 和 可 靠 性 。 
如 果 这 些 字段 值 为 1， 分 别 对 应 于 低 延 时 、 高 吞吐 量 和 高 可 靠 性 


D、T 和 有 R 子 字段 表示 数据 报 在 延 时 、 吞 吐 量 和 可 靠 性 方面 得 到 良好 的 处 理 。 相 应 值 为 
1 表示 更 好 的 处 理 (分 别 为 低 延 时 、 高 吞吐 量 和 高 可 靠 性 )。 优 先 级 取 值 范围 是 从 000 (常规 ) 
到 111 (网 络 控制 )， 表 示 优 先 级 依次 递增 ( 见 表 5-1 )。 它 们 都 基于 一 个 称 为 多 级 优先 与 抢占 
(MLPP) 的 方案 ， 该 方案 可 追溯 到 美国 国防 部 的 AUTOVON 电话 系统 [A92]， 其 中 较 低 优先 
级 的 呼叫 可 被 更 高 优先 级 的 呼叫 抢占 。 这 些 术语 仍 在 使 用 ， 并 被 纳入 VoIP 系统 中 。 


表 5-1 原来 的 IPv4 服务 类 型 和 IPVO 流量 类 别 的 优先 级 子 字 段 值 


i 2, ai 
ee | 
a 
a oir 
















瞬间 覆盖 
严重 
网 间 控 制 
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在 定义 DS 字段 时 ， 优 先 级 的 值 已 定义 在 [RFC2474] 中 ， 以 提供 有 限 的 兼容 性 。 在 
图 5-5 中, 6 位 DS 字段 用 于 保存 DSCP， 提供 对 64 个 代码 点 的 支持 。 特 定 DSCP 值 可 
通知 路 由 器 对 接收 的 数据 报 进行 转发 或 特殊 人 处理 。 不 同类 型 的 转发 处 理 表示 为 每 跳 行 
A (PHB), Ak DSCP 值 可 有 效 通 知 路 由 器 哪 种 PHB 被 应 用 于 数据 报 。DSCP 的 默认 值 通 
常 为 0， 对 应 于 常规 的 尽力 而 为 的 Internet 流量 。64 个 可 能 的 DSCP 值 分 为 不 同 用 途 ， 它 们 
可 从 [DSCPREG] 中 获得 ， 如 表 5-2 所 示 。 


0 6 7 





DS5 DS4 DS3 DS2 DS1 |DS0(0) ECN (2 位 ) 


一 一 一 一 一  -.- =} 
类 别 丢弃 概率 
图 5-5 DS 字段 包含 6 位 (其 中 5 位 当前 是 标准 的 ， 表示 当 接 收 的 数据 报应 转发 时 ， 可 由 一 台 兼 容 的 
路 由 器 转发 )。 后 面 2 位 用 作 ECN， 当 数据 报 通 过 持续 拥塞 的 路 由 器 时 设置 。 当 这 些 数 据 报到 
达 目 的 地 时 ， 稍 后 发 送 一 个 包含 拥塞 指示 的 数据 报 给 发 送 方 ， 通 知 该 数据 报 经 过 一 台 或 多 台 
塞 的 路 由 器 





表 5-2 DSCP 值 被 分 成 3 个 池 : 标准 的 、 实 验 / 本 地 用 途 的 (EXP/LU ) 
和 最 终 打 算 标准 化 的 实验 / 本 地 用 途 的 (*) 


a 
i in 





这 个 方案 供 研究 人 员 和 操作 人 员 用 于 实验 或 本 地 用 途 。 以 0 作为 结尾 的 DSCP 用 于 标准 
用 途 ， 以 1 作为 结尾 的 DSCP 用 于 实验 或 本 地 用 途 。 以 01 作为 结尾 的 DSCP 最 初 打算 用 于 
实验 或 本 地 用 途 ， 但 最 终 会 走向 标准 化 。 

在 图 5-5 P, DS 字段 中 的 类 别 部 分 包含 前 3 位 ， 并 基于 较 早 定义 的 服务 类 型 的 优先 级 
子 字 段 。 路 由 器 通常 先 将 流量 分 为 不 同类 别 。 常 见 类 别 的 流量 可 能 有 不 同 的 丢弃 概率 ， 如 果 
路 由 器 被 迫 丢 奔流 量 ， 人 允许 路 由 器 确定 首先 丢弃 哪些 流量 。3 位 的 类 别 选 择 器 提供 了 8 个 定 
义 的 代码 点 〈 称 为 类 别 选择 代码 点 )， 它 们 对 应 于 一 个 指定 最 小 功能 集 的 PHB ， 提 供与 早期 
的 IP 优先 级 相似 的 功能 。 它 们 称 为 类 别 选 择 兼 容 的 PHB， 目 的 是 支持 部 分 兼容 的 最 初 定义 
的 卫 优 先 级 子 字段 [RFC0791]。xxx000 形式 的 代码 点 总 被 映射 为 这 种 PHB， 但 是 其 他 值 也 
可 映射 到 相同 PHB。 

表 5-3 给 出 了 类 别 选 择 器 的 DSCP 值 ， 以 及 [RFC0791] 定义 的 下 优先 级 字段 的 相应 术 
语 。 保 证 转发 ( AF) 组 对 固定 数量 的 独立 AF 类 别 的 IP 分 组 提供 转发 ， 它 有 效 地 概括 了 优 
先 级 的 概念 。 某 个 类 别 的 流量 与 其 他 类 别 的 流量 分 别 转发 。 在 一 个 流量 类 别 中 ， 数 据 报 被 
分 配 一 个 丢弃 优先 级 。 在 一 个 类 别 中 ， 较 高 丢弃 优先 级 的 数据 报 优先 于 那些 较 低 丢弃 优先 
级 的 数据 报 处 理 ( 即 以 较 高 优先 级 转发 )。 结 合流 量 类 别 和 丢弃 优先 级 ， 名 称 AFi 对 应 于 保 
证 转发 类 别 i 的 丢弃 优先 级 j。 例 如 ， 一 个 标记 为 AF32 的 数据 报 的 流量 类 别 为 3， 丢弃 优先 
级 为 2。 
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R 5-3 DS 字段 值 设 计 为 兼容 服务 类 型 和 IPv6 流量 类 别 字段 中 指定 的 IP 优先 级 子 字段 。 
AF 和 EF 提供 比 简单 的 “尽力 而 为 ”更 好 的 服务 


a 称 描述 
CS0 类 别 选择 (尽力 而 为 /常规 ) 
cs sa ERD 
CS2 类 别 选择 (立即) 
Cs3 类 别 选择 (瞬间 ) 
csi AIER ORTO 
CS5 类 别 选择 (CRITIC/ECP ) 
CS6 类 别 选择 (网 间 控制 ) 
Cs7 [moo | [RFC2474] | 类 别 选择 (控制 
AFI 保证 转发 (1，1) O 
AF12 保证 转发 (1，2 ) 
A [vont] omn OOO C3) 
rT HEH 1 
N2 RERE (2.2) 
AF23 [ooo | [RFC2597] | 保证 转发 (2, 3) 
A onoo | asn | OO RRG D 
12 人 
A HEH G. 3) 
A EWR AD 
AF EHR 42) 
AS TO | 3) 

EF PHB | too | [RFC3246| | 加速 转发 
VOICE-ADMIT | i000 | [RFCs865] | 容量 许可 的 流量 


Oli, 7) 表示 中 ,i、j 分别 表示 流量 类 别 和 丢弃 优先 级 。 


加 速 转 发 (EF) 提供 了 非 拥塞 的 网 络 服务 ， 也 就 是 说 ，EF 流量 应 享受 较 低 的 延 时 、 持 
动 和 丢 包 率 。 直 观 地 说 ，EF 流量 要 求 路 由 器 的 输出 速率 至 少 比 输入 速率 大 。 因 此 ， 在 一 台 
路 由 器 的 队列 中 ，EF 流量 仅 排 在 其 他 EF 流量 之 后 。 

为 了 在 Internet 中 提供 差异 化 服务 ， 目 前 已 持续 进行 十 多 年 的 努力 。 虽 然 大 部 分 机 制 的 
标准 化 开始 于 20 世纪 90 FRR, 但 其 中 有 些 功 能 直到 21 世纪 才 被 实现 。[RFC4594] 给 出 
了 一 些 关 于 如 何 配置 系统 以 利用 该 功能 的 指导 。 差 异化 服务 的 复杂 性 在 于 : 差异 化 服务 和 假 
设 的 差异 化 定价 结构 之 间 的 联系 ， 以 及 由 此 产生 的 公平 问题 。 这 种 经 济 关 系 是 复杂 的 ， 并 且 
不 在 我 们 讨论 的 范围 内 。 关 于 这 个 问题 和 相关 主题 的 更 多 信息 ， 详 见 [MB97] 和 [W03]. 


5.2.4 IP 选项 


IP 支持 一 些 可 供 数 据 报 选择 的 选项 。[RFC0791] 介绍 了 大 多 数 的 选项 ， 当 时 处 于 IPv4 
设计 阶段 ，Internet 的 规模 相当 小 ， 对 来 自 恶 意 用 户 的 威胁 关注 较 少 。 由 于 IPv4 头 部 大 小 的 
限制 以 及 相关 的 安全 问题 ， 因 此 很 多 选项 不 再 是 实用 或 可 取 的 。 在 IPv6 中 ， 大 部 分 选项 已 
被 删除 或 改变 ， 不 再 是 IPv6 基本 头 部 的 一 部 分 ， 而 被 放 在 IPv6 头 部 之 后 的 一 个 或 多 个 扩展 
KARPo IP 路 由 器 接收 到 一 个 包含 选项 的 数据 报 ， 通 常 需要 对 该 数据 报 进行 特殊 处 理 。 在 
某 些 情况 下 ， 尽 管 IPv6 路 由 器 可 以 处 理 扩展 头 部 ， 但 很 多 头 部 被 设计 为 仅 由 终端 主机 处 理 。 
在 有 些 路 由 器 中 ， 带 选项 或 扩展 的 数据 报 不 会 像 普 通 数 据 报 那样 被 快速 转发 。 作 为 相关 的 背 
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景 知 识 ， 我 们 简要 讨论 IPv4 选项 ， 以 及 IPv6 如 何 实现 扩 展 头 部 和 选项 。 表 5-4 显示 了 经 过 
多 年 标准 化 的 IPv4 选项 。 

K 5-4 给 出 了 保留 的 PPv4 选项 ， 它 们 可 在 描述 性 的 RFC 中 找到 。 这 个 完整 的 列表 会 定 
期 更 新 ， 并 可 在 [IPPARAM] 中 在 线 查看 。 选 项 的 范围 总 是 以 32 位 为 界 。 如 果 有 必要 ， 数 
值 0 作为 填充 字 节 被 添加 。 这 确保 IPv4 头 部 始终 是 32 位 的 倍数 ( IHL 字段 的 要 求 )。 表 5-4 
中 的 “编号 ” 列 是 选项 编号 。“ 值 ” 列 给 出 了 放 在 类 型 字段 中 的 编号 ， 以 表示 该 选项 的 存在 。 
由 于 类 型 字段 有 另外 的 结构 ， 所 以 这 两 列 中 的 相应 值 不 必 相 同 。 特 别 指出 的 是 ,第 1 (高 序 ) 
位 表示 如 果 相 关 数 据 报 被 分 片 ， 该 选项 是 否 被 复制 到 分 片 中 。 后 面 2 位 表示 该 选项 的 类 别 。 
目前 ， 除 了 “时 间 惟 ”和 “跟踪 ”使 用 类 别 2 (调试 和 测量 ) 外 ， 表 5-4 中 的 所 有 选项 使 用 类 
alo (控制 )。 类 别 1 和 3 被 保留 。 


表 5-4 如 果 选 项 存在 ， 它 在 IPv4 分 组 中 紧 跟 在 基本 IPv4 头 部 之 后 。 选 项 由 一 个 8 位 的 类 型 字段 标 
识 。 这 个 字段 被 细 分 为 3 个 子 字段 : 复制 (1 位 )、 类 别 (2 位 ) 和 编号 (5 位 )。 选 项 0 和 1 
的 长 度 是 1 字 节 ， 多 数 的 其 他 选项 的 长 度 可 变 。 可 变 选项 包括 1 字 节 的 类 型 标识 符 、1 字 节 的 


长 度 以 及 选项 自身 

名 称 | 编号 | 值 | ke | ss’ 述 | 参考 文献 | 注释 

列表 结尾 | 0 | 0 | 1 | 表示 没有 更 多 选项 | [RFC0791] | 如 果 需要 
没有 操作 | 1 | 1 | 1 | 表示 没有 操作 执行 (用 于 填充 ) | [RFC0791] | 如 果 需 要 





发 送 方 列 出 分 组 转发 时 遍历 的 路 由 器 “ 航 
点 " 。 松 散 意 味 着 其 他 路 由 器 可 以 包含 在 航 点 
(3, 131) 中 。 严 格 意味 着 (9，137 ) 中 的 所 


3 131 
源 路 由 a | ee 可 变 
有 航 点 都 要 按 顺 序 遍 历 


安全 和 处 理 | 2 | 130 在 美国 军事 环境 下 如 何 为 PP 数据 报 指定 安 j 


记录 路 由 在 分 组 的 头 部 中 记录 经 过 的 路 由 器 很 少 
atime | 4 | 68 | 可 变 | 在 分 组 的 源 和 目的 地 记录 日 期 和 时 间 很 少 
流 ID | 8 | 136 | 4 | 携带 16 位 的 SATNET 流标 识 符 历史 的 


EIP 可 变 = 协议 (20 世纪 90 年 代 早 期 的 [RFC1385] 历史 的 
增加 一 个 路 由 跟踪 选项 和 ICMP 报 文 (20 
= jae | | ea | 世纪 90 年 代 早期 的 一 个 实验 ) n -T 


[RFC2113] 


= if J 
快速 启动 表示 启动 快速 传输 协议 (实验 性 的 ) 很 少 


目前 ， 多 数 标准 化 选项 在 Internet 中 很 少 或 从 未 使 用 。 例 如 ， 源 路 由 和 记录 路 由 选项 需 
要 将 IPv4 地 址 放 在 IPv4 头 部 中 。 由 于 头 部 (总计 60 字 节 ， 其 中 20 字 节 是 基本 IPv4 头 部 ) 
空间 有 限 ， 这 些 选 项 在 当前 基于 IPv4 的 Internet 中 用 处 不 大 ， 其 中 一 条 Internet 路 径 的 平均 
路 由 器 跳 步 数 约 为 15[LFS07]。 男 外 ， 这 些 选项 主要 用 于 诊断 目的 ， 它 们 为 防火 墙 的 构建 带 
来 麻烦 和 风险 。 因 此 ，IPv4 选项 通常 在 企业 网 络 边 界 处 被 防火 墙 拒 绝 或 剥离 ( 见 第 7 章 )。 

在 企业 网 络 内 部 ， 路 径 的 平均 长 度 更 小 ， 对 恶意 用 户 的 防护 可 能 考虑 得 更 少 ， 这 些 选项 
仍然 可 以 使 用 。 另 外 ， 路 由 器 警告 选项 提示 可 能 由 于 在 Internet 上 使 用 其 他 选项 而 有 异常 问 
题 。 由 于 它 的 设计 目标 主要 是 优化 性 能 ， 并 不 会 改变 路 由 器 的 基本 行为 ， 所 以 该 选项 通常 比 
其 他 选项 更 常用 。 正 如 前 面 所 提 到 的 ， 有 些 路 由 器 会 实现 高 度 优化 的 内 部 路 径 ， 用 于 那些 不 
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包含 选项 的 IP 流量 转发 。 路 由 器 警告 选项 用 于 通知 路 由 器 ， 一 个 分 组 需 使 用 超出 常规 的 转 
发 算法 来 处 理 。 在 表 5-4 的 结尾 处 ， 实 验 性 的 “快速 启动 ”选项 适用 于 IPv4 和 IPv6， 我 们 
将 在 下 一 节 讨 论 IPv6 扩展 头 部 和 选项 时 介绍 它 。 


5.3 IPv6 扩展 头 部 


在 IPv6 中 ,那些 由 IPv4 选项 提供 的 特殊 功能 ， 通 过 在 IPv6 头 部 之 后 增加 扩展 头 部 实 
现 。IPv4 路 由 和 时 间 戳 功能 都 采用 这 种 方式 ， 其 他 功能 〈 例 如 分 片 和 超大 分 组 ) 很 少 在 IPv6 
中 使 用 (但 仍 需要 )， 因 此 没有 为 它们 在 IPv6 头 部 分 配 相应 的 位 。 基 于 这 种 设计 ，IPv6 头 部 
固定 为 40 字 节 ， 扩 展 头 部 仅 在 需要 时 添加 。 在 选择 IPv6 头 部 为 固定 大 小 时 ， 要 求 扩展 头 
部 仅 由 终端 主机 ( 仅 有 一 个 例外 ) 处 理 ，IPv6 设计 者 简化 了 高 性 能 路 由 器 的 设计 和 实现 ， 这 
是 因为 IPv6 路 由 器 处 理 分 组 所 需 的 命令 比 IPv4 简单 。 实 际 上 ， 分 组 处 理性 能 受 很 多 因素 影 
响 ， 包 括 协 议 复杂 性 、 路 由 器 硬件 和 软件 功能 ， 以 及 流量 负载 等 。 

扩展 头 部 和 更 高 层 协议 (例如 TCP 或 UDP) 头 部 与 IPv6 头 部 链接 起 来 构成 级 联 的 头 
部 ( 见 图 5-6 )。 每 个 头 部 中 的 下 一 个 头 部 字段 表示 紧 跟 着 的 头 部 的 类 型 ， 它 可 能 是 一 个 
IPv6 扩展 头 部 或 其 他 类 型 。 值 59 表示 这 个 头 部 链 的 结尾 。 下 一 个 头 部 字段 的 可 能 值 定 义 在 
[IP6PARAM] 中 ， 并 在 表 5-5 中 列 出 了 其 中 的 大 多 数 。 


IPv6 数据 报 
IPv6 头 部 
下 一 个 头 部 =TCP 











TCP Ét 


TCP 
































40 字 节 20 字 节 
TCP 段 
TPv6 头 部 人 TCP 数据 
下 一 个 头 部 = 路 由 3.4% = TCP 头 部 
40 字 节 20 字 节 


IPv6 头 部 


下 一 个 头 部 = 路 由 











40 FW 20 字 节 
图 5-6 IPv6 头 部 使 用 下 一 个 头 部 字段 形成 一 个 链 。 链 中 的 头 部 可 以 是 IP v6 扩展 头 部 或 传输 层 头 部 。 
IPv6 头 部 出 现在 数据 报 的 开头 ， 并 且 长 度 始终 为 40 字 节 


表 5-5 IPv6 下 一 个 头 部 字段 值 可 能 表示 扩展 头 部 或 其 他 协议 头 部 。 
在 适当 的 情况 下 ， 它 与 IPv4 协议 字段 使 用 相同 值 







[RFC2460][RFC2473] 
[RFC2460]， 紧 跟 在 IPv6 头 部 之 后 





逐 跳 选项 (HOPOPT) 









134 BSF 





( BE ) 
头 部 类 到 参考 文献 
目的 地 选项 | 3,8 | 6 | IFc2460] 
路 由 [RFC2460][RFC5095] 
SH 44 [RFC2460] 
封装 安全 载荷 (ESP) ( 见 第 18 章 ) 
认证 (AH) | “6 | 51 | (mt 第 18 章 ) 
移动 (MIPv6 ) |e | B [RFC6275] 
(无 一 没有 下 一 个 头 部 ) 最 后 [RFC2460] 
ICMPv6 58 ( 见 第 8 章 ) 
UDP E 
TCP | 最 后 | 6 3 ~ 17 章 ) 


各 种 其 他 高 层 协议 | 最 后 | 一 | ” 见 [AN] 中 的 完整 列表 


我 们 从 表 5-5 中 可 以 看 到 ，IPv6 扩展 头 部 机 制 将 一 些 功能 (例如 路 由 和 分 片 ) 与 选项 加 
以 区 分 。 除 了 “ 逐 跳 选项 ”的 位 置 之 外 ( 它 是 强制 性 的 )， 扩 展 头 部 的 顺序 是 建议 性 的 ， 因 
此 一 个 IPv6 实现 必须 按 接收 的 顺序 处 理 扩展 头 部 。 只 有 “目的 地 选项 ” 头 部 可 以 使 用 两 次 ， 
第 一 次 是 指出 包含 在 IPv6 头 部 中 的 目的 IPv6 地 址 ， 第 二 次 (位置 8 ) 是 关于 数据 报 的 最 终 
目的 地 。 在 某 些 情况 下 【例如 使 用 路 由 头 部 )， 当 数据 报 被 转发 到 最 终 目的 地 时 ，IPv6 头 部 
中 的 目的 IP 地 址 字段 将 会 改变 。 


5.3.1 IPv6 选项 


我 们 已 经 看 到 ， 相 对 于 IPv4, IPv6 提供 了 一 种 更 灵活 和 可 扩展 的 方式 ， 将 扩展 和 选项 
相 结 合 。 由 于 IPv4 头 部 空间 的 限制 ， 那 些 来 自 IPv4 的 选项 已 停止 使 用 ， 而 IPv6 可 变 长 度 
的 扩展 头 部 或 编码 在 特殊 扩展 头 部 中 的 选项 可 适应 当前 更 大 的 Internet。 如 果 选 项 存在 ， 可 
放 入 逐 跳 选项 (与 一 个 数据 报 传输 路 径 上 的 每 个 路 由 器 相关 ) 或 目的 地 选项 〈 仅 与 接收 方 相 
XX). BABE ( 称 为 HOPOPT) 是 唯一 由 分 组 经 过 的 每 个 路 由 器 处 理 的 选项 。 逐 跳 选 项 和 
目的 地 选项 的 编码 格式 一 样 。 

逐 跳 选项 和 目的 地 选项 头 部 的 出 现 可 以 超过 一 次 。 这 些 选 项 均 被 编码 为 类 型 - 长 度 - 值 
(TLV) 集合 ， 对 应 于 图 5-7 中 所 示 格 式 。 





选项 类 型 
图 5-7 逐 跳 选项 和 目的 地 选项 编码 为 TLV 集合 。 第 一 字 节 给 出 了 选项 类 型 ， 包 括 一 些 子 字段 ， 在 选 
项 没 被 识别 时 指示 一 个 IPv6 节点 如 何 动作 ， 以 及 在 数据 报 转发 时 选项 数据 是 否 改变 。 选 项 数 
据 长 度 字段 给 出 了 选项 数据 的 字 节 长 度 


TLV 结构 如 图 5-7 所 示 ， 它 的 长 度 为 2 字 节 ， 后 面 是 可 变 长 度 的 数据 字 节 。 第 一 字 节 表 
示 选 项 类 型 ， 其 中 包括 3 个 子 字段 。 当 5 位 的 类 型 子 字段 无 法 由 选项 识别 时 ， 第 一 个 子 字段 
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给 出 了 一 个 IPv6 节点 尝试 执行 的 动作 。 表 5-6 显示 了 所 有 可 能 的 值 。 


表 5-6 一 个 IPv6 的 TLV 选项 类 型 的 2 个 高 序 位 ， 表 示 如 果 这 个 选项 没有 被 识别 ， 一 个 IPv6 节点 是 
转发 还 是 丢弃 该 数据 报 ， 以 及 是 否 向 发 送 方 返回 一 个 消息 ， 提 示 这 个 数据 报 的 处 理 结果 


值 动 作 

oo. 跳 过 选项 ， 继 续 处 理 

01 丢弃 这 个 数据 报 (UR) 

10 丢弃 这 个 数据 报 ， 并 向 源 地 址 发 送 一 个 “ICMPv6 参数 问题 ”消息 


11 与 10 相同 ,但 仅 在 分 组 的 目的 地 不 是 组 播 时 ， 发 送 这 个 ICMPv6 消息 


如 果 一 个 发 往 组 播 目 的 地 的 数据 报 中 包括 一 个 未 知 选项 ， 那 么 大 量 节 点 将 生成 返回 源 节 
点 的 流量 。 这 可 通过 将 动作 子 字段 设置 为 11 来 避免 。 动 作 子 字段 的 灵活 性 在 开发 新 的 选项 
时 是 有 用 的 。 一 个 新 的 选项 可 携带 在 一 个 数据 报 中 ， 并 被 那些 无 法 理解 它 的 路 由 器 所 忽略 ， 
这 样 有 助 于 促进 新 选项 的 增 量 部 署 。 当 选项 数据 可 能 在 数据 报 转发 过 程 改 变 时 ， 改 变 位 字段 
(图 5-7 中 的 Chg) 设置 为 1。 表 5-7 中 所 示 的 选项 已 被 IPv6 定义 。 


表 5-7 IPv6 选项 携带 在 逐 跳 ( H) 选项 或 目的 地 (D) 选项 扩展 头 部 中 。 选 项 类 型 字段 包含 来 自 “ 类 型 ” 列 
以 及 动作 和 改 交 子 字段 中 的 二 进 制 值 。" 长 度 ” 列 包含 来 自 图 5-7 的 选项 数据 长 度 字 节 中 的 值 。 
填充 1 是 唯一 没有 该 字 节 的 选项 


ame mE ET 
Wi | e | wow | 0 | | + | renn 
wane | mW | mw | | | _* | cum 


5.3.1.1 填充 1 和 填充 N 

由 于 IPv6 选项 需要 与 8 字 节 的 偏 移 量 对 齐 ， 因 此 较 小 的 选项 用 0 填充 到 长 度 为 8 字 节 。 
这 里 有 两 个 填充 选项 ， 分 别称 为 填充 1 和 填充 N。 填 充 1 选项 (类 型 0 ) 是 唯一 缺少 长 度 字 
段 和 值 字段 的 选项 。 它 仅 有 1 字 节 长 ， 取 值 为 0。 填充 N 选项 (类 型 1 ) 向 头 部 的 选项 区 域 
填充 2 字 节 或 更 多 字 节 ， 它 使 用 图 5-7 所 示 格 式 。 对 于 n 个 填充 字 节 ， 选 项 数据 长 度 字段 包 
含 的 值 为 (n - 2 )。 


5.3.1.2 IPv6 超大 有 效 载荷 

在 某 些 TCP/IP 网 络 中 ， 例 如 那些 用 于 互 连 超 级 计算 机 的 网 络 ， 由 于 正常 的 64KB 的 IP 
数据 报 大 小 限制 ， 在 传输 大 量 数据 时 会 导致 不 必要 的 开销 。IPv6 超大 有 效 载荷 选项 指定 了 
一 种 有 效 载荷 大 于 65 535 字 节 的 IPv6 数据 报 ， 称 为 超大 报 文 。 这 个 选项 无 法 由 MTU 小 于 
64KB 的 链 路 连接 的 节点 来 实现 。 超 大 有 效 载 荷 选 项 提供 了 一 个 32 位 的 字段 ， 用 于 携带 有 效 
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载荷 在 65 535 ~ 4294 967 295 字 节 之 间 的 数据 报 。 

当 一 个 用 于 传输 的 超大 报 文 形成 时 ， 甚 正常 负载 长 度 字 段 被 设置 为 0。 我 们 将 在 后 面 看 
到 ，TCP 协议 使 用 负载 长 度 字段 ， 计 算 由 前 面 所 述 的 Internet 校 验 和 算法 得 到 的 校 验 和 。 当 
使 用 超大 有 效 载 荷 选 项 时 ，TCP 必须 使 用 来 自选 项 的 长 度 值 ， 而 不 是 基本 头 部 中 的 长 度 字段 
值 。 虽然 这 个 过 程 并 不 困难 ， 但 更 大 有 效 载荷 使 得 未 检测 出 错误 的 可 能 性 增 大 [RFC2675]。 


5.3.1.3 ”隧道 封装 限制 

隧道 是 指 将 一 个 协议 封装 在 另 一 个 协议 中 ( 见 第 1 章 和 第 3 章 )。 例 如 ，IP 数据 报 可 能 
被 封装 在 男 一 个 IP 数据 报 的 有 效 载荷 部 分 。 隧 道 可 用 于 形成 虚拟 的 覆盖 网 络 ， 在 覆盖 网 络 
中 ,一 个 网 络 (例如 Internet) 可 作为 另 一 个 IP 的 链 路 层 使 用 [TWEF03]。 隧 道 可 以 舱 套 ， 从 
这 个 意义 上 来 说 ,一 条 隧道 中 的 数据 报 本 身 也 可 采用 递归 方式 封装 在 另 一 条 隧道 中 。 

在 发 送 一 个 IP 数据 报时 ， 发 送 者 通常 无 法 控制 最 终 用 于 封装 的 隧道 层次 。 发 送 者 可 使 
用 这 个 选项 设置 一 个 限制 。 一 台 路 由 器 打算 将 一 个 IPv6 数据 报 封装 在 一 条 隧道 中 ， 它 首先 
检查 隧道 封装 限制 选项 是 否 存 在 并 置 位 。 如 果 这 个 限制 选项 的 值 为 0， 该 数据 报 被 丢弃 ， 并 
将 一 个 “ICMPv6 参数 问题 ”消息 ( 见 第 8 章 ) 发 送 到 数据 报 源 端 ( 即 之 前 的 隧道 入 口 点 )。 
如 果 这 个 限制 选项 的 值 不 为 0， 该 数据 报 可 进行 隧道 封装 ， 但 新 形成 (封装 ) 的 IPv6 数据 报 
必须 包括 一 个 隧道 封装 限制 选项 ， 其 值 比 封装 之 前 的 数据 报 中 的 封装 限制 选项 值 减 1。 实 际 
上 ， 封 装 限制 行动 类 似 于 IPv4 的 TTL 和 IPv6 的 跳 数 限制 字 段 ， 只 不 过 采用 隧道 封装 层次 代 
替 转 发 跳 步 。 


5.3.1.4 路 由 器 警告 
路 由 器 警告 选项 指出 数据 报 包含 需要 路 由 器 处 理 的 信息 。 它 与 IPv4 的 路 由 器 警告 选项 
的 目的 相同 。[RTAOPTS] 给 出 了 这 个 选项 的 当前 设置 值 。 


5.3.1.5 ”快速 启动 

快速 启动 (QS) 选项 和 [RFC4782] 定义 的 TCP/IP 实验 性 “快速 启动 ”程序 配合 使 用 。 
它 适用 于 IPv4 和 1IPv6, 但 目前 建议 仅 用 于 专用 网 络 ， 而 不 是 全 球 性 的 Internet。 选 项 包括 发 
送 者 需要 的 以 比特 / 秒 为 单位 的 传输 速率 的 编码 值 、QS TTL 值 和 一 些 额 外 信息 。 如 果 沿 途 
的 路 由 器 认为 可 以 接受 所 需 的 速率 ， 在 这 种 情况 下 它们 将 递减 QS TTL， 并 在 转发 数据 报时 
保持 所 需 的 速率 不 变 。 如 果 路 由 器 不 同意 ( 即 其 支持 的 速率 较 低 )， 它 将 该 速率 减 小 到 一 个 可 
接受 的 速率 。 如 果 路 由 器 不 能 识别 QS 选项 ， 它 将 不 递减 QS TTL。 接 收 方 将 向 发 送 方 提供 
反馈 ， 包 括 接收 到 的 数据 报 的 IPv4 TTL 或 IPv6 跳 数 限制 字段 和 自己 的 QS TTL 之 间 的 差异 ， 
以 及 获得 的 速率 可 能 被 沿途 的 路 由 器 所 调整 。 这 个 信息 被 发 送 方 用 于 确定 发 送 速率 (否则 可 
能 超出 TCP 使 用 的 速率 )。 对 TTL 值 进行 比较 的 目的 是 确保 沿途 每 台 路 由 器 参与 QS 谈判 。 
如 果 发 现任 何 路 由 器 递减 IPv4 TTL (或 IPv6 跳 数 限制 ) 字段 ,但 没有 修改 QS TTL 值 ， 则 说 
明 它 没有 启用 QS. 


5.3.1.6 CALIPSO 

这 个 选项 用 于 在 某 些 专用 网 络 中 支持 通用 体系 结构 标签 IPv6 安全 选项 (CALIPSO ) 
[RFC5570]。 它 提供 了 一 种 为 数据 报 做 标记 的 方法 ,包括 一 个 安全 级 别 标识 符 和 一 些 额 外 的 
信息 。 需 要 注意 的 是 ， 它 用 于 多 级 安全 网 络 环境 (例如 ， 政 府 、 军队 和 银行 )， 其 中 所 有 数据 
的 安全 级 别 必须 以 某 种 形式 的 标签 注 明 。 
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5.3.1.7 “家乡 地 址 

当 使 用 IPv6 移动 选项 时 ， 这 个 选项 保存 发 送 数据 报 的 IPv6 节点 的 “家 乡 ” 地 址 。 移 动 
IP ( 见 5.5 节 ) 规定 了 JP 节点 的 一 系列 处 理 过 程 ， 这 些 节 点 可 能 改变 自己 的 网 络 接 人 点 ， 同 
时 不 会 断 开 自己 的 高 层 网 络 连 接 。 这 里 存在 一 个 节点 的 “家 乡 ” 的 概念 ， 它 来 自 其 典型 位 置 
的 地 址 前 级 。 当 远离 家 乡 漫游 时 ， 通 常 为 该 节点 分 配 一 个 不 同 的 IP 地 址 。 该 选项 允许 这 个 
节点 提供 自己 正常 的 家 乡 地 址 ， 以 及 它 在 漫游 时 的 新 地 址 (通常 是 临时 分 配 )。 当 其 他 IPv6 
节点 需要 与 移动 节点 通信 时 ， 它 可 以 使 用 该 节点 的 家 乡 地 址 。 如 果 家 乡 地 址 选项 存在 ， 包 含 
它 的 目的 地 选项 头 部 必须 出 现在 路 由 头 部 之 后 ， 并 且 在 分 片 、 认 证 和 ESP 头 部 〈 见 第 18 章 ) 
之 前 (如果 这 些 头 部 也 存在 )。 我 们 将 在 移动 IP 中 详细 讨论 这 个 选项 。 


5.3.2 BAA 


IPv6 路 由 头 部 为 发 送 方 提供 了 一 种 IPv6 数据 报 控 制 机 制 ， 以 控制 (至 少 部 分 控制 ) 数 
据 报 通过 网 络 的 路 径 。 目 前 ， 路 由 扩展 头 部 有 两 个 不 同 版 本 ， 分 别称 为 类 型 0 (RHO) 和 类 
型 2 (RH2 )。RHO 出 于 安全 方面 的 考虑 已 被 否决 [RFC5095]，RH2 被 定义 为 与 移动 IP 共同 
使 用 。 为 了 更 好 地 理解 路 由 头 部 ， 我 们 首先 讨论 RH0， 然 后 研究 它 为 什么 被 放弃 ， 以 及 它 和 
RH2 的 不 同 之 处 。RHO0 规定 了 数据 报 转 发 时 可 “访问 ”的 一 个 或 多 个 IPv6 节点。 图 5-8 显 
示 了 这 个 头 部 。 


0 15 16 31 


头 部 扩展 长 度 | 路 由 类 型 (0) | 
(8 位 ) (8 位 ) 位 














IP 地 址 [1] 

(128 位 ) 路 由 扩展 
头 部 (可 变 ) 

IP Hot [n] 

(128 位) 
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5-8 目前 已 废弃 的 路 由 头 部 类 型 0( RH0 ) 涵盖 了 IPv4 的 宽松 和 严格 的 源 路 由 和 记录 路 由 选项 。 它 
在 数据 报 转发 时 由 发 送 方 构造 ， 其 中 包括 转发 路 径 上 的 IPv6 节点 地 址 。 每 个 地 址 可 指定 为 一 
个 宽松 或 严格 的 地 址 。 一 个 严格 的 地 址 必须 经 过 一 个 IPv6 跳 步 到 达 ， 而 一 个 松散 的 地 址 可 能 
经 过 一 个 或 多 个 其 他 跳 步 到 达 。 在 IPv6 基本 头 部 中 ， 目 的 IP 地 址 字段 修改 为 包含 数据 报 转 发 
的 下 一 个 转发 地 址 
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图 5-8 所 示 的 IPv6 路 由 头 部 涵盖 了 来 自 IPv4 的 宽松 源 路 由 和 记录 路 由 选项 。 它 还 支持 


采用 IPv6 地 址 之 外 的 其 他 标识 符 路 由 的 可 能 性 ， 这 个 功能 是 不 规范 的 ， 这 里 没有 进一步 讨 


论 。 对 于 标准 化 的 IPv6 地 址 的 路 由 ，RHO 允许 发 送 方 指 定 一 个 指向 目的 地 址 的 向 量 。 

这 个 头 部 包含 一 个 8 位 的 路 由 类 型 标识 符 和 一 个 8 位 的 剩余 部 分 字段 。 对 于 RH0，IPv6 
地 址 类 型 标识 符 为 0 ; 对 于 RH2， 该 标识 符 为 2。 剩余 部 分 字段 指出 还 有 多 少 段 路 由 需要 处 
理 ， 也 就 是 说 ， 在 到 达 最 终 目 的 地 之 前 仍 需 访问 的 中 间 节 点 数 。 它 是 一 个 32 位 的 从 保留 字 
段 开始 的 地 址 块 ， 由 发 送 方 设 置 为 0， 并 由 接收 方 忽略 。 在 数据 报 转发 时 ， 这 些 地 址 并 非 可 
访问 的 组 播 IPv6 地 址 。 

IPv6 路 由 头 部 在 转发 过 程 中 不 会 处 理 ， 直 至 目的 IP 地 址 字段 中 包含 的 地 址 所 在 的 节 
点 。 这 时 ， 剩 余部 分 字段 用 于 确定 来 自 地 址 向 量 的 下 一 跳 地 址 ， 并 将 该 地 址 与 IPv6 头 部 中 
的 目的 IP 地址 字段 交换 。 因 此 ， 在 这 个 数据 报 转发 过 程 中 ， 剩 余部 分 字段 将 会 变 得 越 来 越 
小 ， 头 部 中 的 地 址 列表 反映 转发 数据 报 的 节点 地 址 。 这 个 转发 过 程 可 通过 一 个 例子 更 好 地 理 
f ( 见 图 5-9). 





图 5-9 通过 一 个 IPv6 路 由 头 部 (RHO), XI (S) 可 指定 数据 报 经 过 中 间 节 点 Rs 和 Rs。 经 过 的 其 
他 节点 由 正常 IPv6 路 由 来 确定 。 注 意 ， 在 经 过 路 由 头 部 指定 的 每 个 跳 步 时 ，IPv6 头 部 中 的 目 
的 地 址 将 会 更 新 


在 图 5-9 中 ， 我 们 可 看 到 中 间 节 点 如 何 处 理 路 由 头 部 。 发 送 方 (S) 使 用 一 个 目的 地 址 
Ri 以 及 一 个 包含 地 址 R, R 和 DD 的 路 由 头 部 〈 类 型 0 ) 来 构造 数据 报 。 数 据 报 的 最 终 目的 
地 是 列表 中 的 最 后 一 个 地 址 (D)。 剩 余部 分 字段 (在 图 5-9 中 标 为 “Left”) 从 3 开始 。 数 据 
报 由 S 和 Ro 自动 向 Ri 转发 。 由 于 Ro 的 地 址 在 数据 报 中 不 存在 ， 因 此 Ro 没有 修改 路 由 头 部 
或 地 址 。 当 数据 报到 达 Ri 时 ， 将 基本 头 部 的 目的 地 址 和 路 由 头 部 的 第 一 个 地 址 交换 ， 并 将 
剩余 部 分 字段 递减 1。 

当 数据 报 被 转发 时 ， 重 复 上 述 将 目的 地 址 与 路 由 头 部 地 址 列表 中 下 一 个 地 址 交换 的 过 
程 ， 直 至 路 由 头 部 中 的 最 后 一 个 目的 地 址 为 止 。 

通过 Windows XP 中 的 一 个 简单 的 ping6 命令 (Windows Vista 和 更 高 版 本 只 提供 ping 
命令 ， 其 中 包括 对 IPv6 的 支持 ) 的 选项 ， 可 设置 包含 一 个 路 由 头 部 : 
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C:\> ping6 -r -s 2001:db8::100 2001:db8::1 


当 向 2001 :db8::100 发 送 一 个 ping 请 求 时 ， 这 个 命令 使 用 源 地 址 2001:db8::100。-r 选项 
用 于 包含 一 个 路 由 头 部 (RHO); RITER Wireshark 来 查看 输出 请 求 ( 见 图 5-10 )。 





= Traffic class: Ox00000000 
0000 0000 0000 0000 0000 = Flowlabel: 0x00000000 
Payload length: 64 
Next header: IPV6 routing (COx2b) 
Hop limit: 128 
Source: 2001:db8::100 (2001: db8::100) 
Destination: 2001:db8::1 (2001:db8::1) 
B Routing Header, Type : IPv6 Source Routing (0) 
Next header: ICMPY6 (Ox3a) 
Length: 2 (24 bytes) 
Type: IPv6 Source Routing CO) 
Left Segments: 1 
Address : 2001: dbs: :100 C2001: db8::100) 











SET 
“Ge 80 00 05 4e rf 

2b 80 20 01 Od bi 

01 00 zo o1 Od bg 00 8 

00 oL 0 00 0 


64 65 66 67 68 69 





À 63 6 7 B 69 6a wwe bab cde 
6b c 6d be ef 70 71 72 73 74 75 76 77 61 62 53 kimnopqr stuvwabc 
defghi 


图 5-10 ping 请 求 在 Wireshark 中 显示 为 一 个 ICMPv6 回 显 请 求 。IPv6 头 部 包括 一 个 下 一 个 头 部 字段 ， 
指出 该 分 组 包含 一 个 类 型 0 的 路 由 头 部 ， 后 面 跟着 一 个 ICMPv6 头 部 。 在 RHO 中 需 处 理 的 剩 
余 网 段 数 为 1(2001:db8::100 ) 


ping 消息 显示 为 一 个 ICMPv6 回 显 请 求 分 组 ( 见 第 8 章 )。 通 过 查看 下 一 个 头 部 字段 的 
值 ， 我 们 看 到 在 基本 头 部 后 面 跟着 一 个 路 由 头 部 。 在 路 由 头 部 中 ， 我 们 看 到 其 类 型 为 0 (R 
示 为 RH0 )， 还 剩余 一 个 网 段 ( 跳 步 ) 需 处 理 。 这 个 跳 步 由 地 址 列表 (编号 0 ) 中 的 第 一 个 值 
指定 : 2001:db8::100。 

正如 前 面 提 到 的 ， 出 于 安全 方面 的 担心 ，RH0O 已 在 [RFC5095] 中 被 废弃 ， 因 为 RHO 可 
用 于 增加 DoS 攻击 效果 。RHO0 的 问题 是 允许 在 路 由 头 部 的 多 个 位 置 指定 相同 地 址 。 这 可 能 
导致 流量 在 一 条 特定 路 径 上 的 两 台 或 多 台 主 机 或 路 由 器 之 间 重 复 转 发 。 大 量 的 流量 负载 可 能 
在 网 络 中 沿 着 特定 路 径 创 建 ， 与 相同 路 径 上 的 其 他 流量 竞争 带宽 而 造成 干扰 。 因 此 ，RHO 目 
前 已 过 时 ，IPv6 唯一 支持 的 路 由 头 部 是 RH2。RH2 与 RHO 基本 相当 ， 区 别 在 于 它 只 容纳 一 
个 地 址 ， 而 且 在 路 由 类 型 字段 中 使 用 的 值 不 同 。 


5.3.3 分 片头 部 


分 片头 部 用 于 IPv6 源 节 点 向 目的 地 发 送 一 个 大 于 路 径 MTU 的 数据 报 。 对 于 路 径 
MTU 以 及 如 何 确 定 它 ， 我 们 将 在 第 13 章 中 详细 讨论 ， 但 1280 字 节 是 整个 网 络 中 针对 
IPv6 定义 的 链 路 层 最 小 MTU (JL [RFC2460] 的 第 5 节 )。 在 IPv4 中 ， 如 果 数 据 报 大 小 超 
过 下 一 中 MTU， 任 何 主机 或 路 由 器 可 将 该 数据 报 分 片 ，IPv4 头 部 中 第 二 个 32 位 字段 表示 
分 片 信息 。 在 IPv6 中 ， 仅 数据 报 的 发 送 者 可 以 执行 分 片 操 作 ， 在 这 种 情况 下 需要 添加 一 个 
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分 片头 部 。 

分 片头 部 包括 的 信息 与 IPv4 头 部 中 的 相同 ， 只 不 过 标识 符 字段 是 32 位 ， 而 不 是 IPv4 
中 采用 的 16 位 。 这 个 更 大 的 字段 提供 了 在 网 络 中 容纳 更 多 分 片 的 能 力 。 图 5-11 显示 了 分 片 
头 部 采用 的 格式 。 


1516 31 
下 一 个 头 部 保留 (0 ) 分 片 偏 移 Res 分 片 
(8 位 ) (8 位 ) (13 位 ) (2 位 ) 扩展 
Cg 字 节 ) 


图 5-11 IPv6 分 片头 部 包含 一 个 32 位 的 标识 符 字段 ( 它 是 IPv4 中 标识 符 字段 的 两 倍 )。M 位 字段 表明 
该 分 片 是 否 为 原始 数据 报 的 最 后 一 个 分 片 。 与 IPv4 一 样 ， 分 片 偏 移 字段 给 出 了 有 效 载荷 在 原 
始 数据 报 中 以 8 字 节 为 单位 的 偏 移 量 


在 图 5-11 中 ,保留 字段 和 2 位 的 Res 字段 都 为 0， 并 且 都 会 被 接收 方 所 忽略 。 分 片 偏 移 
字段 表明 数据 以 8 字 节 为 单位 的 偏 移 量 放置 在 分 片头 部 之 后 (相对 于 原始 IPv6 数据 报 的 “可 
分 片 部 分 ”"， 见 下 一 段 )。 如 果 M 位 字段 设置 为 1， 表示 在 数据 报 中 包含 更 多 分 片 。 如 果 该 值 
为 0， 表示 该 分 片 是 原始 数据 报 的 最 后 一 个 分 片 。 

在 分 片 过 程 中 ,输入 的 数据 报 称 为 “原始 数据 报 ”"， 它 由 两 部 分 组 成 :“ 不 可 分 片 部 分 ” 
和 “可 分 片 部 分 ”。 不 可 分 片 部 分 包括 IPv6 头 部 和 任何 在 到 达 目 的 地 之 前 需 由 中 间 节 点 处 
理 的 扩展 头 部 ( 即 包括 路 由 头 部 之 前 的 所 有 头 部 ， 如 果 有 和 逐 跳 选 项 扩展 头 部 ， 则 是 该 头 部 
之 前 的 所 有 头 部 )。 可 分 片 部 分 包括 数据 报 的 其 余部 分 ( 即 目的 选项 头 部 、 上 层 头 部 和 有 效 
载荷 数据 )。 

当 原始 数据 报 被 分 片 后 ， 将 会 产生 多 个 分 片 ， 其 中 每 个 分 片 都 包含 一 个 原始 数据 报 中 不 
可 分 片 部 分 的 副本 ， 但 是 需要 修改 每 个 IPv6 头 部 的 负载 长 度 字 段 ， 以 反映 它 所 描述 的 分 片 
的 大 小 。 在 不 可 分 片 部 分 之 后 ， 每 个 新 的 分 片 都 包含 一 个 分 片头 部 ， 其 中 包含 一 个 分 片 相应 
的 分 片 偏 移 字段 (例如 第 一 个 分 片 的 偏 移 量 为 0)， 以 及 一 个 原始 分 组 的 标识 符 字段 的 副本 。 
最 后 一 个 分 片 的 M (更 多 分 片 ) 位 字段 设置 为 0。 

下 面 的 例子 演示 了 IPv6 源 节点 对 数据 报 的 分 片 过程 。 在 图 5-12 所 示 的 例子 中 ,一 
3960 字 节 的 有 效 载荷 被 分 片 ， 其 中 分 片 的 大 小 都 没有 超过 1500 字 节 (一 个 典型 的 以 太 网 
MTU), 分 片 数据 的 大 小 仍 为 8 字 节 的 倍数 。 

在 图 5-12 中 ， 我 们 看 到 较 大 的 原始 数据 报 被 分 为 3 个 较 小 的 分 片 ， 每 个 分 片 都 包含 一 
个 分 片头 部 。IPv6 头 部 的 负载 长 度 字段 被 修改 ， 以 反映 数据 和 新 生成 的 分 片头 部 的 大 小 。 每 
个 分 片 中 的 分 片头 部 包含 一 个 公共 标识 符 字 段 ， 以 确保 网 络 中 不 同 的 原始 数据 报 在 其 生存 期 
内 不 会 被 分 配 相 同 的 标识 符 字 段 值 。 

分 片头 部 中 的 偏 移 量 字段 以 8 字 节 为 单位 ， 因 此 分 片 需要 在 8 字 节 的 边界 处 进行 ， 这 
就 是 第 一 个 和 第 二 个 分 片 包含 1448 字 节 ， 而 不 是 1452 字 节 的 原因 。 因 此 ， 除 了 最 后 一 个 分 
片 之 外 的 所 有 分 片 都 是 8 字 节 的 倍数 (最 后 一 个 分 片 也 可 能 是 )。 接 收 方 在 对 分 片 进行 重组 
之 前 ， 必 须 确 保 已 接收 原始 数据 报 的 所 有 分 片 。 重 组 过 程 需要 聚合 所 有 分 片 以 形成 原始 数据 
iko 与 IPv4 分 片 一 样 ( 见 第 10 章 )， 分 片 可 能 不 按 顺 序 到 达 接 收 方 ， 但 需要 按 顺 序 重组 为 一 
个 数据 报 ， 以 便 交 给 高 层 的 其 他 协议 处 理 。 


标识 符 (32 位 ) 





Internet tix 141 




















IPv6 头 部 IP 数据 原始 数据 报 
(40 字 节 ) (3960 字 节 ) 长 度 =4000 
负载 长 度 =3960 
1496 字 节 
— 1448 Ft 
村 第 一 个 分 片 
IPv6 头 部 “| 分 片头 部 长 度 = 1496 
(40 字 节 ) | (8 FW) 负载 长 度 = 1456 
偏 移 量 =0 数据 长 度 = 1448 
M=1 
标识 符 = 2439898 
IPv6 头 部 “| 分 片头 部 -人 
Au AH KJE = 1496 
ae piii 负载 长 度 = 1456 
偏 移 量 = 181 数据 长 度 = 1448 
M=1 
标识 符 = 2439898 
IPv6 头 部 “| 分 片头 部 IP 数据 第 三 个 (最后) 分 片 
(40 字 节 ) | (8 字 节 ) (1064 字 节 ) 长 度 =1112 
i 负载 长 度 = 1072 
= 362 
sa 0 数据 长 度 = 1064 


标识 符 = 2439898 
图 5-12 IPv6 分 片 的 例子 ，1 个 3960 字 节 的 有 效 载荷 被 分 为 3 个 1448 字 节 或 更 小 的 分 片 。 每 个 分 片 
包含 一 个 带 相 同 的 标识 符 字 段 的 分 片头 部 。 除 了 最 后 一 个 分 片 ， 所 有 分 片 的 更 多 分 片 (M) F 
段 设置 为 1。 偏 移 量 以 8 字 节 为 单位 ， 例 如 最 后 一 个 分 片 包 含 的 数据 是 从 原始 数据 开始 处 偏 
移 (362*8 )= 2896 字 节 。 这 个 方案 与 IPv4 中 的 分 片 相似 


在 Windows 7 中 构造 一 个 IPv6 分 片 可 使 用 以 下 命令 : 


C:\> ping -1 3952 ££01::2 


图 5-13 显示 了 该 操作 在 网 络 中 运行 时 的 Wireshark 输出 。 

在 图 5-13 中 ， 我 们 看 到 分 片 由 4 个 发 送 到 IPv6 组 播 地 址 ff01::2 的 ICMPv6 回 显 请 求 消 
息 构 成 。 每 个 请 求 都 需要 分 片 ，-13952 选项 表示 3952 字 节 的 数据 携带 在 每 个 ICMPv6 消息 
的 数据 区 中 (由 于 有 8 字 节 的 ICMPv6 头 部 ， 因 此 生成 的 IPv6 负载 长 度 是 3960 字 节 )。 为 了 
确定 目的 地 的 链 路 层 组 播 地 址 ， 需 要 执行 一 个 针对 IPv6 的 特定 映射 过 程 ， 见 第 9 章 中 的 相 
关 信 息 。ICMPv6 回 显 请 求 (由 ping 程序 生成 ) 被 分 散在 几 个 分 片 中 ，Wireshark 可 显示 所 有 
分 片 的 重组 过 程 。 图 5-14 显示 了 第 二 个 分 片 的 细节 。 À 

在 图 5-14 中 ， 正 如 预期 的 那样 ， 我 们 看 到 了 IPv6 头 部 以 及 负载 长 度 为 1448 字 节 。 下 
一 个 头 部 字段 包含 一 个 值 44 ( 0x2c)， 我 们 通过 表 5-5 可 以 知道 ， 它 表示 在 IPv6 头 部 之 后 跟 
着 一 个 分 片头 部 。 分 片头 部 指出 下 一 个 头 部 为 ICMPv6， 这 意味 着 没有 更 多 的 扩展 头 部 。 偏 
移 量 字段 为 181， 表 示 这 个 分 片 包含 原始 数据 报 中 从 字 节 偏 移 量 1448 开始 的 数据 。 由 于 
更 多 分 片 字段 设置 为 1 (在 Wireshark 中 显示 为 Yes)， 所 以 我 们 知道 它 不 是 最 后 一 个 分 片 。 
图 5-15 显示 了 ICMPv6 回 显 请 求 数 据 报 的 最 后 一 个 分 片 。 
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图 5-13 在 这 个 例子 中 ，ping 程序 生成 了 ICMPv6 分 组 〈 见 第 8 章 )， 其 中 包含 





ip6trag-win7.td 


CNxt=ECMPy6 


838179 feü: Bd 3, > ] T IFw6 fragment Cnxt=TCMPV6 
. 839406 d 6 6 IPV6 fragment C 


off=0 id=0x14) 
off=1448 jd=0x14) 


B45752 f : : 3 IPv6 frag Cnxt=ICMPv6 
9.846973 f 6 F58: F 6 Ipv6 fragment Cixt=TOMPy6 


6 fragment C A (Ox3a) off=0 id=0x16) 
fragmer 3a) off=1448 id=0x16) 


10 14.837626 f :c661:2f58:66 01:2 IPv6 
11 14.838850 fe80 7:c66 8:e6f7 FFOL::2 IPvG 





ee 0000 OOOO 2... cece cane inaa wii = Traffic class: Ox00000000 
sese . sees goan 0000 0000 0000 0000 = Flowlabel: 0x00000000 


Next header: IPv6 AEn (Ox2c) 
Hop limit: 128 
Source: fe80::8db7:c661:2F58:e6F7 (fe80::8db7:c661:2f58:e6f7) 
Destination: ff0l::2 (ff01::2) 
@ Fragmentation Header 
Next header: ICMPv6 (Ox3a) 
0000 0000 0000 Q. = Offset: 0 (0x0000) 
è ʻi = More Fragment: Yes 
Identification: 0x00000010 
Reassembled Ipv6 in f ame: 
m Data (448 bytes: 
Data: 800035620001002h616263 64 65666768696a6b6c6d6e6f70. 
h: 1448 











3960 字 节 的 IPv6 有 效 


载荷 。 这 些 分 组 被 分 成 3 个 分 片 ， 每 个 分 片 都 足够 小 ， 以 适合 以 太 网 的 1500 字 节 MTU 大 小 


ip6frag-win7.td 


1 0. 000000 


a, OOLZ2 


4 4. 838179 
5 4.839406 


7 9.845752 
3 9. 846973 


10 14.837626 
11 14. 838850 


fragment 
ñ fragment 


fragment 
fragment 


fragment 
6 fragment 


6 fragment 


[nxt=ICMPV6 
Cnxt =ICMPV6 


(Nxt= CMPVE 
fnxt=ICMPV6 


CnPxt=ITCMPY6 


(0x3a) off=0 1d=0x12) 
(Ox3a) off=1448 1d=0x12) 


(COx3a) off=0 id=-Ox14) 
(Ox3a) of f=1448 id=0x14) 


(Ox3a) off=0 id=Ux161 





6 fragment (nxt=ICMPyv6 (0x3 off=1448 id=0x16) 


fi 0110 = version: 6 

J .... 0000 0000 aas sasa sasi sase wees = Traffic class: 0x00000000 
Br .... >... 0000 0000 0000 0000 0000 = Flowlabel: 0x00000000 
Payload length: 1456 
Next header: IPpv6 fragment (Ox2c) 
Hop limit: 128 
Source: fe80::8db7:c661:2F58:e6f7 (fe80: :8db7:c661:2F58:e6F7) 
Destination: ffol::2 CFFO1::2) 

a Fragmentation Header 

Next header: ICMPv6 COx3a2 


0000) 02.02: LOLO 


# $ 
SMS gee owes le More ery Yes 
Identification: 0x00000010 
peassenbl er 1Pv6 in frame: 3 





= Data tigas DERA 
Data: 6F70717273747576776162636465666768696a6b6c6d6cEF.. 
[Length: 1448] 


图 5-14 ICMPv6 回 显 请 求 数据 报 的 第 二 个 分 片 包含 1448 字 节 的 IPv6 有 效 载荷 ， 以 及 8 字 节 的 分 片 


头 部 。 分 片头 部 表明 整个 数据 报 在 源 节点 被 分 片 ， 偏 移 量 字段 的 181 表示 该 分 片 包含 的 数据 
从 字 节 偏 移 量 1448 开始 。 更 多 分 片 (M) 位 字段 被 设置 ， 表 示 需 要 其 他 分 片 共同 重组 数据 报 。 
同一 原始 数据 报 的 所 有 分 片 包含 相同 的 标识 符 字 段 (在 这 个 例子 中 为 2 ) 
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在 图 5-15 中 ， 我 们 看 到 偏 移 量 字段 值 为 362， 它 是 以 8 字 节 为 单位 的 ， 也 就 是 说 ， 它 相 
对 于 原始 数据 报 的 字 节 偏 移 量 为 362*8 = 2896。 总 长 度 字 段 值 为 1072， 其 中 包括 8 字 节 的 分 
片头 部 。Wireshark 为 我 们 计算 了 分 片 方 式 ， 第 一 个 分 片 和 第 二 个 分 片 分 别 包含 第 一 组 和 第 二 
组 的 1448 字 节 ， 最 后 一 个 分 片 包含 1064 字 节 。 总 的 来 说 ， 分 片 过 程 增 加 了 40*2 + 8*3 = 104 
字 节 (2 个 额外 的 IPv6 头 部 和 每 个 分 片 有 8 字 节 的 分 片头 部 )， 它 们 需要 由 网 络 层 携带 。 如 果 
加 上 链 路 层 的 开销 ， 总 计 104 + (2*18) = 140 字 节 (每 个 以 太 网 帧 包括 一 个 14 字 节 的 头 部 和 
一 个 4 字 节 的 CRC). 


.se im 
1 0. 000000 : : 7 V m 0) 
20. OGL225 x 6 TPV6 fragment CnxtsTcMPv9 Cox ) A 1d=0x10) 
661 f tt MPve t ng) regue wrs] é 


a4 eae g S8:e6f7 FFO o AIPE ragent TUEL OED off- 2 
5 4.839406 af F58: H- Pv6 IPV6 Fragment (Cnxt=ICMPY5 (Ox3a) off1448 id=0x12) 


7 9.845752 f ts :2f58:e6f7 ffol::2 VE6 ITPv6 fragment (nxt=ICMPv6 (0x3a) off=0 1d-0x14) 
& 9.846073 fes0::6 61:2 1e ::2 i IPv6 fragment (nxtaIcMPvő (Ùx3a) off=1443 id=0x14) 


10 14.837026 feBO:: 72 C661: 2F58:e6F7 g2 IPv6 fragment 《nxt=ICMPV6 (Ox3a) off=0 id=0x16) 
11 14,838850 feBo:: :C661 :2f58:e F 3:2 IPV fragment (nxt=ICMPy6 (0x3a) of f=1448 id=0x16) 


= version: 6 
.. 0000 0000 = Traffic class: 0x00000000 
0000 0000 0000 0000 0000 = Flowlabel: 0x00000000 
Payload length: 1072 
Next header: IPv6 fragment (0x2c) 
Hop limit: 128 
Source: fe80::8db7:c661:2F58:e6F7 (fe80: :8db7:c661:2F58:e6F7) 
Destination: ffO1::2 (ff01::2) 
& Fragmentation Header 
Next header: ICMPv6 (Ox3a) 
0000 1011 0101 0... = Offset: 362 (Ox016a) 
.0 = More Fragment: No 
Identification: “ox00000010 
s T RATP ET AORERE on he bytes): #1(1448), #201448), #3000640) 1 ES E 
[Erame: 1, payload: 0-1447 (1448 bytes)] 


Frame: 2, payload: 1448-2895 (1448 bytes) 

[Frame: 3, payload: 2896-3959 (1064 bytes)] 

[Fragment count: 3] 

IPV6 Jength: 3960] 
Sac TS aN Ea Hi ela ME Rot Nal 





cho Cp ng) request (28) 


checksum: 0x3562 [correct] 
Identifier: 0x0001 
Sequence: 43 





图 5-15 第 一 个 ICMP v6 回 显 请 求 数据 报 的 最 后 一 个 分 片 有 362 x 8 = 2896 6 字 节 的 偏 移 量 和 1072 字 
节 的 有 效 载荷 (原始 数据 报 的 有 效 载荷 1064 字 节 加 上 分 片头 部 的 8 字 节 )。 更 多 分 片 字段 
设置 为 0 表示 这 是 最 后 一 个 分 片 ， 原 始 数据 报 的 有 效 载荷 总 长 度 为 2896 + 1064 = 3960 FH 
(ICMP 数据 的 3956 字 节 加 上 ICMPv6 头 部 的 8 字 节 ; 见 第 8 章 ) 


5.4 IP 转发 


从 概念 上 来 说 ，IP 转发 是 很 简单 的 ， 特 别 是 对 于 一 个 主机 。 如 果 目 的 地 是 直接 相连 的 主 
机 (例如 点 到 点 链接 ) 或 共享 网 络 (例如 以 太 网 )，IP 数据 报 直 接 发 送 到 目的 地 ， 不 需要 或 者 
不 使 用 路 由 器 。 和 否则 ， 主 机 将 数据 报 发 送 到 一 台 路 由 器 〈 称 为 默认 路 由 器 )， 由 该 路 由 器 将 数 
据 报 交付 到 目的 地 。 这 个 简单 方案 适用 于 大 多 数 主 机 配置 。 

在 本 节 中 ， 我 们 讨论 这 种 简单 情况 的 细节 ， 以 及 如 何在 复杂 情况 下 转发 人 P 数据 报 。 首 先 ， 
我 们 注意 到 当前 的 大 多 数 主 机 既 可 配置 为 路 由 器 ， 也 可 配置 为 主机 ， 很 多 家 庭 网 络 使 用 一 台 连 
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接 到 Internet 的 PC 作为 路 由 器 〈 也 可 能 是 一 个 防火 墙 ， 我 们 将 在 第 7 章 中 讨论 )。 主 机 与 路 由 
器 处 理 IP 数据 报 的 区 别 在 于 : 主机 不 转发 那些 不 是 由 它 生成 的 数据 报 ， 但 是 路 由 器 会 这 样 做 。 
在 整个 方案 中 ,IP 协议 可 接收 一 个 数据 报 ， 它 可 来 自 同一 主机 上 的 其 他 协议 (TCP. UDP 
等 )， 也 可 来 自 一 个 网 络 接 口 。IP 层 包 括 一 些 位 于 内 存 中 的 信息 ， 通 常 称 为 路 由 表 或 转发 表 ， 
每 次 转发 一 个 数据 报时 需要 从 中 查找 信息 。 当 一 个 网 络 接口 接收 到 一 个 数据 报时 ，IP 模块 首 
先 检查 目的 地 址 是 否 为 自己 的 下 地 址 (与 自己 的 某 个 网 络 接口 相关 的 中 地 址 ),， 或 是 它 可 以 
接收 其 流量 的 一 些 其 他 地 址 ， 例 如 人 P 广播 或 组 播 地 址 。 如 果 是 的 话 ， 数 据 报 交 付 给 由 IPv4 k 
部 的 协议 字段 或 了 Pv6 头 部 的 下 一 个 头 部 字段 指定 的 协议 模块 。 如 果 数 据 报 的 目的 地 不 是 本 地 
IP 模块 使 用 的 全 地 址 ， 那么 : (1) 如 果 了 瑟 层 配置 为 一 台 路 由 器 ， 则 转发 该 数据 报 (也 就 是 
说 ， 作 为 一 个 输出 的 数据 报 处 理 ， 见 5.4.2 节 中 的 描述 );(2 ) 数据 报 被 默默 地 丢弃 。 在 某 些 情 
况 下 (例如 在 情况 1 中 没有 路 由 )，ICMP 消息 可 能 发 送 回 源 节 点 ， 以 表明 发 生 了 一 个 错误 。 


5.4.1 转发 表 


IP 协议 标准 没有 规定 转发 表 所 需 的 精确 数据 ， 这 个 选择 工作 留 给 P 协议 的 实现 者 。 但 
是 ，IP 转发 表 通 常 需要 包含 几 个 关键 信息 ， 我 们 现在 将 讨论 这 些 信息 。 至 少 在 理论 上 ， 路 由 
208] 或 转发 表 中 的 每 个 条 目 包含 以 下 字段 信息 : 
e 目的 地 : 它 是 一 个 32 位 字段 (或 128 位 字段 ， 用 于 IPv6 )， 用 于 与 一 个 掩 码 操作 结果 
相 匹 配 ( 见 下 文 )。 针 对 涵盖 所 有 目的 地 的 “默认 路 由 ”的 情况 ， 目 的 地 可 简单 地 设 为 
零 ; 对 于 仅 描 述 一 个 目的 地 的 “主机 路 由 ”的 情况 ， 目 的 地 可 设 为 完整 长 度 的 他 地址 。 
eB: 它 是 一 个 32 位 字段 (或 128 位 字段 ， 用 于 IPv6 )， 用 作 数 据 报 目的 耳 地 址 按 
位 与 操作 的 掩 码 ， 其 中 的 目的 IP 地 址 是 要 在 转发 表 中 查找 的 地 址 。 掩 码 结 果 与 转发 
表 条 目 中 的 多 个 目的 地 进行 比较 。 
e 下 一 跳 : 它 是 下 一 个 IP 实体 (路 由 器 或 主机 ) 的 32 位 IPv4 地 址 或 128 位 IPv6 地 址 ， 
数据 报 将 被 转发 到 该 地 址 。 下 一 跳 实体 通常 在 一 个 网 络 中 由 执行 转发 查找 的 系统 所 共 
享 ， 这 意味 着 它们 共享 同一 网 络 前 级 ( 见 第 2 章 )。 
。 接口 : 它 包 含 一 个 由 IP 层 使 用 的 标识 符 ， 以 确定 将 数据 报 发 送 到 下 一 跳 的 网 络 接口 。 
例如 ， 它 可 能 是 一 台 主 机 的 802.11 无 线 接口 、 一 个 有 线 的 以 太 网 接口 或 一 个 与 串 行 
端口 相关 联 的 PPP 接口 。 如 果 转 发 系统 也 是 IP 数据 报 的 发 送 方 ， 该 字段 用 于 选择 输 
出 数据 报 的 源 IP 地 址 (IL 5.6.2.1 节 )。 
IP 转发 逐 跳 进行 。 我 们 从 这 个 转发 表 的 信息 中 看 到 ， 路 由 器 和 主机 不 包含 到 任何 目的 地 
的 完整 转发 路 径 (除了 那些 直接 连接 主机 或 路 由 器 的 目的 地 )。 了 PP 转发 只 提供 数据 报 发 送 的 
下 一 跳 实体 的 IP 地 址 。 它 假设 下 一 跳 比 执行 转发 的 系统 “更 接近 ”目的 地 ， 并 且 下 一 跳 路 
由 器 与 执行 转发 的 系统 直接 连接 ( 即 共享 同一 网 络 前 级 )。 它 通常 也 假设 与 下 一 跳 实体 之 间 没 
有 “ 环 路 "， 数 据 报 不 会 在 网 络 中 循环 ， 直 至 其 TTL 或 跳 数 限制 到 期 。 由 一 个 或 多 个 路 由 协 
议 来 确保 路 由 表 正 确 。 多 种 路 由 协议 能 做 好 这 项 工作 ,包括 RIP、OSPF、BGP 和 1IS-IS， 这 
里 仅 列 出 几 种 (例如 ，[DC05] 给 出 路 由 协议 的 更 多 细节 )。 


5.4.2 IP 转发 行动 


当 一 人 台 主 机 或 路 由 器 中 的 IP 层 需要 向 下 一 跳 的 路 由 器 或 主机 发 送 一 个 数据 报时 ， 它 首 
先 检查 数据 报 中 的 目的 了 P 地址 (D)。 在 转发 表 中 使 用 该 值 D 来 执行 最 长 前 组 匹配 算法 : 
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1. 在 表 中 搜索 具有 以 下 属性 的 所 有 条 目 : (D^ mj)= qd;， 其 中 由 是 索引 为 7 的 转发 条 目 e 
的 掩 码 字 段 值 ，4 是 转发 条 目 o 的 目的 地 字段 值 。 这 意味 着 目的 耳 地 址 DD 与 每 个 转发 表 条 
ERRE (m) 执行 按 位 与 ， 并 将 该 结果 与 同一 转发 条 目 中 的 目的 地 (4) 比较 。 如 果 满足 
这 个 属性 ,该 条 目 (这 里 为 @) SAN IP 地址 相 “ 匹 配 ”。 当 进行 匹配 时 ， 该 算法 查看 这 个 
条 目的 索引 (这 里 为 让， 以 及 在 掩 码 mj 中 有 多 少 位 设置 为 1。 设置 为 1 的 位 数 越 多 ,说 明 匹 
配 得 “ 越 好 ”。 

2. 选择 最 匹配 的 条 目 ee (MEB mi 中 最 多 位 为 1 的 条 目 )， 并 将 其 下 一 跳 字段 n 作为 转 
发 数据 报 的 下 一 跳 IP 地 址 。 

如 果 在 转发 表 中 没有 发 现 匹 配 的 条 目 ， 这 个 数据 报 无 法 交付 。 如 果 在 本 地 出 现 (在 这 台 
主机 ) 无 法 交付 的 数据 报 ， 通常 向 生成 数据 报 的 应 用 程序 返回 一 个 “主机 不 可 达 ” 错 误 。 在 
一 台 路 由 器 上 ，ICMP 消息 通常 返回 给 发 送 数据 报 的 主机 。 

在 某 些 情 况 下 ， 可 能 有 多 个 条 目 是 匹配 的 〈 即 为 1 的 位 数 一 样 )。 例 如 当 多 个 默认 路 由 
可 用 时 会 发 生 这 种 情况 (如 连接 到 多 个 ISP 时 ， 称 为 多 宿主 )。 在 这 种 情况 下 ， 协 议 标准 没有 
规定 终端 系统 的 有 具体 行为 ， 而 是 由 具体 操作 系统 的 协议 实现 来 决定 。 通 常 是 简单 地 选择 第 一 
个 匹配 的 结果 。 更 复杂 的 系统 可 能 尝试 在 多 个 路 由 上 平衡 负载 或 拆 分 流量 。 研 究 表 明 ， 多 宿 
主 可 能 不 仅 对 大 型 企业 有 用 ， 也 包括 家 庭 用 户 [THL06]。 





5.4.3 ”例子 


为 了 对 简单 的 局 部 环境 (例如 同一 LAN) 和 某 些 更 复杂 的 多 跳 环 境 (ERR Internet) 中 的 
IP 转发 工作 有 深刻 的 理解 ， 我 们 将 讨论 以 下 两 种 情况 。 第 一 种 情况 ， 所 有 系统 使 用 相同 的 网 
络 前 级 ， 这 称 为 直接 交付 ; 另 一 种 情况 为 间接 交付 〈《 见 图 5-16). 


直接 交付 


第 2 层 ( 例如 以 太 网 ) 头 部 
第 3 层 (IP) 头 部 







间接 交付 








R3a DST: R4a DST: D 
SRC: R2b SRC: R3b SRC: R4b 


图 5-16 HRX Ae SEB rH ae, IP 数据 报 封装 在 一 个 链 路 层 帧 中 ， 它 可 以 直接 识别 数据 来 源 或 目的 
地 。 间 接 交付 涉及 路 由 器 ， 数 据 转发 到 这 台 路 由 器 ， 并 使 用 该 路 由 器 的 链 路 层 地 址 作为 目的 


地 址 。 路 由 器 的 IP 地址 没有 出 现在 IP 数据 报 中 【除非 路 由 器 自己 是 源 主机 或 目的 主机 ， 或 者 
使 用 源 路 由 时 ) 
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5.4.3.1 直接 交付 

我 们 看 一 个 简单 的 例子 。Windows XP 主机 (IPv4 地 址 S 和 MAC 地 址 S) RAS; 一 个 
IP 数据 报 发 送 到 Linux 主机 (IPv4 地 址 D 和 MAC 地 址 D)， 该 主机 称 为 D。 这 些 系统 通过 
一 台 交 换 机 互 连 起 来 。 两 台 主 机 都 在 同一 以 太 网 中 〈 见 封 二 捅 图 )。 图 5-16 (E) 显示 了 这 个 
数据 报 的 传输 过 程 。 当 8$ 的 IP 层 接 收 到 一 个 来 自 上 层 〈 例 如 TCP ak UDP) 的 数据 报 ， 它 将 
会 查找 自己 的 转发 表 。 我 们 预期 ，S 的 转发 表 包 含 的 信息 如 表 5-8 所 示 。 


表 5-8 主机 S 中 的 ( 单 播 ) IPv4 转 发 表 只 包含 两 个 条 目 。 主 机 S 配 置 了 IPv4 地 址 和 子 网 掩 码 
10.0.0.100/25。 对 于 目的 地 址 在 10.0.0.1 到 10.0.0.126 范围 内 的 数据 报 ， 使 用 转发 表 第 二 个 
条 目 ， 并 采用 直接 交付 来 发 送 。 其 他 数据 报 使 用 第 一 个 条 目 ， 并 交付 给 IPv4 地 址 为 10.0.0.1 
的 路 由 器 R 








EE 
255.255.255.128 10.0.0.100 


在 表 5-8 中 ， 目 的 IPv4 地 址 D (10.0.0.9 ) 与 第 一 和 第 二 个 转发 表 条 目的 匹配 。 由 于 它 
与 第 二 个 条 目 匹 配 得 更 好 ( 25 位 )， 所 以 “网 关 ” 或 下 一 跳 地 址 为 10.0.0.100， 即 地 址 S。 该 
条 目的 网 关 部 分 包含 发 送 主机 的 网 络 接口 (没有 涉及 路 由 器 )， 说 明 采 用 直接 交付 来 发 送 数 
据 报 。 

这 个 数据 报 被 封装 在 一 个 低层 帧 中 ， 并 发 送 给 目的 主机 D。 如 果 目 的 主机 的 低层 地 址 未 
知 ， 可 能 需要 使 用 ARP 协议 (对 于 IPv4， 见 第 4 BE) 或 邻居 请 求 (对 于 IPv6， 见 第 8 章 ) 操 
作 ， 以 确定 正确 的 低层 地 址 D。 如 果 已 经 知道 该 地 址 ， 数 据 报 中 的 目的 地 址 是 D 的 IPv4 地 
址 (10.0.0.9)， 并 将 卫 放 在 低层 头 部 的 目的 IP 地 址 字段 中 。 这 人 台 交 换 机 基于 低层 地 址 D 交 
付 该 帧 ， 它 并 不 关心 IP 地 址 。 


5.4.3.2 ”间接 交付 

现在 看 另 一 个 例子 。 我 们 的 Windows 主机 有 一 个 IP 数据 报 发 送 到 主机 ftp.uu.net， 其 
IPv4 地 址 为 192.48.96.9。 图 5-16 (F) 显示 了 通过 4 台 路 由 器 的 数据 报 传输 路 径 (在 理论 
上 )。 首 先 ，Windows 主机 在 自己 的 转发 表 中 查找 ,但 在 本 地 网 络 中 没有 找到 匹配 的 前 缀 。 
这 时 ， 它 使 用 自己 的 默认 路 由 条 目 (匹配 每 个 目的 地 ,但 没有 “1” 位 )。 这 个 默认 路 由 条 
目 指出 适当 的 下 一 跳 网 关 为 10.0.0.1 (路 由 器 Rl 的 “a 侧 ”)。 这 是 一 个 家 庭 网 络 的 典型 

我 们 回想 一 下 直接 交付 的 情况 ， 源 IP 地 址 和 目的 IP 地址 对 应 于 相应 的 源 主机 和 目 
的 主机 。 对 于 低层 (例如 以 太 网 ) 地 址 也 是 这 样 。 在 间接 交付 中 ，IP 地 址 对 应 于 前 面 的 
源 主机 和 目的 主机 ， 但 是 低层 地 址 不 对 应 。 实 际 上 ， 低 层 地 址 决定 哪 台 机 器 在 每 跳 的 基 
础 上 接收 包含 数据 报 的 帧 。 在 这 个 例子 中 ， 需 要 的 低层 地 址 为 下 一 跳 路 由 器 R1 的 a 侧 接 
口 的 以 太 网 地 址 ， 低 层 地 址 对 应 的 IPv4 地 址 为 10.0.0.1。 这 由 ARP (如 果 在 例子 中 使 用 
IPv6 则 是 一 个 邻居 请 求 ) EEH SARI 的 网 络 上 完成 。R1 通过 其 a 侧 的 低层 地 址 响应 
后 ,S 将 向 RI 发 送 数据 报 。S 向 R1 交付 仅 根据 低层 头 部 〈 更 具体 地 说 是 低层 的 目的 地 址 ) 
的 处 理 进行 。 在 接收 到 这 个 数据 报 之 后 ，R1 将 检查 自己 的 转发 表 。 表 5-9 中 的 信息 是 典 
型 的 。 





10.0.0.100 
10.0.0.100 
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表 5-9 R1 的 转发 表 说 明 需 要 对 流量 进行 地 址 转换 。 路 由 器 一 侧 是 一 个 私有 地 址 ( 10.0.0.1 )， 另 一 侧 
是 一 个 公有 地 址 ( 70.231.132.85 )。 地 址 转换 用 于 使 来 自 10.0.0.0/25 网 络 的 数据 报 ， 看 起 来 
像 是 从 70.231.132.85 发 送 到 Internet 


a a | mem Rn | 
0.0.0.0 70.231,.159.254 =e 132.85 





255.255.255.128 10.0.0.100 


当 RI 接收 到 数据 报时 ， 它 发 现 数据 报 的 目的 IP 地 址 不 是 自己 ， 因 此 它 将 转发 这 个 数据 
报 。R1 搜索 转发 表 ， 并 使 用 默认 的 条 目 。 在 这 种 情况 下 ， 该 默认 条 目的 下 一 跳 位 于 ISP 服 
务 的 网 络 中 ， 即 70.231.159.254( 这 是 R2 a 侧 的 接口 )。 这 个 地 址 正好 在 SBC 的 DSL 网 络 中 ， 
它 有 一 个 较 长 的 名 称 adsl-70-231-159-254.dsl.snfc21.sbcglobalnet。 由 于 这 人 台 路 由 需 位 于 全 球 
Internet 中 ， 并 且 Windows 机 器 的 源 地 址 为 私有 地 址 10.0.0.100, R1 对 数据 报 进行 网 络 地 址 
转换 (NAT)， 以 使 它 在 Internet 中 可 路 由 。 对 数据 报 进行 NAT 处理， 结果 是 生成 新 的 源 地 址 
70.231.132.85， 它 对 应 于 R1 的 b 侧 接口 。 不 使 用 私有 地 址 〈 例 如 ISP 和 大 型 企业 ) 的 网 络 不 
需要 执行 最 后 一 步 ， 并 且 保 持原 来 的 源 地 址 不 变 。 我 们 将 在 第 7 章 中 详细 介绍 NAT, 

当 路 由 器 R2 (在 ISP 内 部 ) 接收 到 数据 报 ， 它 的 操作 步骤 与 本 地 路 由 器 RI 相同 (除了 
NAT 操作 外 )。 如 果 数 据 报 的 目的 地 不 是 自己 的 下 地 址 ， 则 转发 这 个 数据 报 。 在 这 种 情况 
下 ， 路 由 器 通常 不 仅 有 一 个 默认 路 由 ， 而 且 有 多 个 其 他 路 由 ， 这 取决 于 它 连接 的 Internet 的 
其 他 部 分 ， 以 及 它 的 本 地 策略 。 

注意 ，IPv6 转发 与 传统 IPv4 转发 只 有 很 少 改 变 。 除 了 更 长 的 地 址 之 外 ，IPv6 还 使 用 一 
种 稍微 不 同 的 机 制 (邻居 请 求 消息 )， 以 确定 它 的 下 一 跳 的 低层 地 址 。 我 们 将 在 第 8 章 中 详细 
介绍 它 〈 作 为 ICMPv6 的 一 部 分 )。 另 外 ，IPv6 定义 了 链 路 本 地 地 址 和 全 球 地 址 ( 见 第 2 章 )。 
全 球 地 址 的 处 理 方 式 就 像 普 通 的 IP 地 址 ， 链 路 本 地 地 址 只 能 用 于 同一 链 路 上 。 另 外 ， 所 有 
的 链 路 本 地 地 址 共享 相同 的 IPv6 前 级 ( fe80::/10 )， 在 发 送 一 个 目的 地 为 链 路 本 地 地 址 的 数 
据 报时 ， 一 台 多 宿主 主机 可 能 需要 用 户 来 决定 使 用 哪个 接口 。 

为 了 说 明 如 何 使 用 链 路 本 地 地 址 ， 我 们 在 自己 的 Windows XP 主机 上 运行 (假设 IPv6 已 
启用 并 且 可 操作 ): 


C:\> ping6 £e80::204:5aff£:fe9f:9e80 
Pinging fe80::204:5aff:fe9f:9e80 with 32 bytes of data: 
No route to destination. 
Specify correct scope-id or use -s to specify source address. 
C:\> ping6 fe80::204:5aff:fe9f:9e80%6 


Pinging fe80::204:5aff:fe9f:9e80%6 
from fe80::205:4eff:fe4a:24bb%6 with 32 bytes of data: 


Reply from fe80::204:5aff:fe9f:9e80%6: bytes=32 time=1ms 
Reply from fe80::204:5aff:fe9f:9e80%6: bytes=32 time=1ms 
Reply from fe80::204:5aff:fe9f:9e80%6: bytes=32 time=1ms 
Reply from fe80::204:5aff:fe9f:9e80%6: bytes=32 time=1ms 


Ping statistics for fe80::204:5aff:fe9f:9e80%6: 
Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), 
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Approximate round trip times in milli-seconds: 
Minimum = lms, Maximum = lms, Average = lms 


这 里 ， 由 于 没有 为 链 路 本 地 流量 指定 输出 接口 ， 我 们 将 看 到 一 个 错误 提示 。 在 Windows 
XP 中 ， 我 们 可 指定 一 个 范围 ID 或 一 个 源 地 址 。 在 这 个 例子 中 ， 我 们 指定 的 范围 ID 是 一 个 
使 用 %6 扩展 目的 地 址 的 接口 号 。 当 发 送 一 个 ping 流量 时 ， 通 知 系统 使 用 接口 号 6 作为 正确 
的 接口 。 

为 了 查看 一 条 到 达 1IP 目的 地 的 路 径 ， 我 们 可 使 用 traceroute 程序 (在 Windows 中 称 为 
tracert， 它 包括 的 选项 稍 有 不 同 )， 使 用 -n 选项 表示 不 将 IP 地 址 转换 为 名 称 : 


Tinuxg traceroute -n ftp.uu.net 

` traceroute to ftp.uu.net (192.48.96.9), 30 hops max, 38 byte packets 

1 70.231.159.254 9.285 ms 8.404 ms 8.887 ms 
206.171.134.131 8.412 ms 8.764 ms 8.661 ms 
216.102.176.226 8.502 ms 8.995 ms 8.644 ms 
151.164.190.185 8.705 ms 8.673 ms 9.014 ms 
151.164.92.181 9.149 ms 9.057 ms 9.537 ms 
151.164.240.134 9.680 ms 10.389 ms 11.003 ms 
151.164.41.10 11.605 ms 37.699 ms 11.374 ms 
12.122.79.97 13.449 ms 12.804 ms 13.126 ms 
12.122.85.134 15.114 ms 15.020 ms 13.654 ms 
MPLS Label=32307 CoS=5 TTL=1 S=0 
10 12.123.12.18 16.011 ms 13.555 ms 13.167 ms 
11 192.205.33.198 15.594 ms 15.497 ms 16.093 ms 
12 152.63.57.102 15.103 ms 14.769 ms 15.128 ms 
13 152.63.34.133 77.501 ms 77.593 ms 76.974 ms 
14 152.63.38.1 77.906 ms 78.101 ms 78.398 ms 
15 207.18.173.162 81.146 ms 81.281 ms 80.918 ms 
16 198.5.240.36 77.988 ms 78.007 ms 77.947 ms 
17 198.5.241.101 81.912 ms 82.231 ms 83.115 ms 


这 个 程序 列 出 了 将 多 个 数据 报 发 送 到 目的 地 ftp.uu.net ( 192.48.96.9 ) 经 过 的 每 个 卫 Be 
步 。traceroute 程序 使 用 UDP 数据 报 〈 随 着 时 间 增 大 TTL) 和 ICMP 消息 (用 于 在 UDP 数据 
报到 期 时 检测 每 个 跳 步 ) 共同 完成 任务 。 针 对 每 个 TTL 值 发 送 3 个 UDP 分 组 ， 以 便 为 每 个 
跳 步 测量 3 次 往返 时 间 。 在 传统 上 ，traceroute 曾经 仅 携带 P 信息 ， 但 在 这 里 我 们 也 看 到 以 
下 信息 : 


MPLS Label=32307 CoS=5 TTL=1 S=0 
这 表明 该 路 径 上 使 用 了 多 协议 标签 交换 ( MPLS) [RFC3031]， 标 签 ID W 32307, AR AER 
为 5，TTL 为 1， 并 且 该 消息 并 不 位 于 MPLS 标签 栈 底 部 (S= 0 ; JL [RFC4950])。MPLS 是 
一 种 链 路 层 网 络 ， 它 能 够 承载 多 种 网 络 层 协议 。[RFC4950] 描述 了 它 和 ICMP 之 间 的 交互 ， 
[RFC6178] 描述 了 IPv4 分 组 (包括 选项 ) 的 处 理 。 很 多 网 络 运 营 商 将 它 用 于 流量 工程 ( 即 控 
制 通过 自己 网 络 的 流量 )。 


wwmOnt nur WN 


5.4.4 讨论 


在 上 述 例子 中 ,我 们 应 牢记 关于 IP 单 播 转发 的 几 个 关键 点 : 

1. 在 这 个 例子 中 ,大 多 数 主机 和 路 由 器 使 用 默认 路 由 ， 其 中 包含 一 个 以 下 形式 的 转发 表 
AA: 掩 码 为 0， 目 的 地 为 0， 下 一 跳 为 < 某 些 IP 地 址 >。 事实 上 ,在 Internet WA, KS 
数 主机 和 路 由 器 会 使 用 一 个 对 所 有 地 址 而 不 是 本 地 网 络 中 的 目的 地 址 的 默认 路 由 ， 这 是 因为 
只 有 一 个 接口 可 连接 Internet 的 其 他 部 分 。 
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2. 在 传统 的 Internet 中 ， 数 据 报 中 的 源 IP 地 址 和 目的 了 P 地 址 从 不 改变 。 除 非 是 在 使 用 
源 路 由 的 情况 下 ， 或 沿 着 传输 路 径 遇 到 其 他 功能 (例如 这 个 例子 中 的 NAT)， 否 则 情况 永远 
如 此 。 

3. 不 同 的 低层 头 部 用 于 每 种 链 路 上 的 寻 址 ， 低 层 的 目的 地 址 (如 果 存 在 ) 总 是 包含 下 一 
跳 的 低层 地 址 。 因 此 ， 当 数据 报 沿 着 到 目的 地 的 每 个 跳 步 移动 时 ， 低 层 头 部 经 常 发 生变 化 。 
在 我 们 的 例子 中 ， 以 太 网 封装 的 链 路 层 头 部 中 包含 下 一 跳 的 以 太 网 地 址 ， 但 是 在 DSL 链 路 
上 不 会 这 样 做 。 对 于 IPv4 来 说 ， 低 层 地 址 通常 通过 ARP ( 见 第 4 章 ) 获得 ; 对 于 IPv6 来 说 ， 
则 使 用 ICMPv6 邻居 发 现 ( 见 第 8 章 )。 


5.5 移动 IP 


到 目前 为 止 ， 我 们 已 讨论 了 IP 数据 报 通过 Internet 转发 的 传统 方式 ， 以 及 使 用 了 P 的 专 
用 网 络 。 这 个 模型 的 假设 是 一 台 主 机 的 IP 地 址 与 附近 主机 和 路 由 器 共享 同一 前 级 。 如 果 这 
样 一 台 主 机 在 网 络 中 的 连接 点 改变 ， 但 仍 保留 与 链 路 层 网 络 的 连接 ， 它 的 所 有 上 层 (例如 
TCP) 连接 将 会 失效 ， 这 是 因为 它 的 IP 地址 必须 改变 ,或 路 由 不 能 将 分 组 正确 交付 给 (移动 
后 的 ) 主机 。 针 对 它 的 研究 已 开展 多 年 (实际 上 已 有 几 十 年 )， 移动 PP 解决 了 这 个 问题 (有 人 
已 提出 其 他 协议 ， 见 [RFC6301])。 虽 然 有 各 种 版 本 的 移动 PP 一 一 针对 IPv4 的 [RFC5944]( 称 
为 MIPv4 ) 和 针对 IPv6 的 [RFC6275]， 但 我 们 更 关注 移动 IPv6 ( 称 为 MIPv6 )， 因 为 它 更 灵 
活 和 更 容易 解释 。 另 外 ， 它 似乎 更 容易 在 快速 增长 的 智能 手机 上 应 用 。 注 意 ， 我 们 不 会 全 面 
讨论 移动 IPv6， 它 是 非常 复杂 的 ， 值 得 专门 通过 一 本 书 来 讨论 (例如 [RC05])。 但 是 ， 我们 
将 介绍 它 的 基本 概念 和 原则 。 

移动 IP 基于 一 台 主 机 拥有 一 个 “家 乡 ” 网 络 ， 但 可 以 不 时 地 访问 其 他 网 络 的 想法 。 当 
主机 位 于 家 乡 内 部 时 ， 普 通 转发 基于 本 章 讨论 的 算法 。 当 主机 离开 家 乡 时 ， 它 保持 平时 在 家 
乡 使 用 的 全 地址 ， 但 采用 一 些 特殊 的 路 由 和 转发 手段 ,使 主机 可 以 在 这 个 网 络 中 与 其 他 系 
统 通信 ， 就 好 像 它 仍 连接 在 自己 的 家 乡 网 络 中 那样 。 该 方案 依赖 于 一 种 特殊 类 型 的 路 由 器， 
它 被 称 为 “家 乡 代 理 ”， 用 于 为 移动 节点 提供 路 由 。 

MIPv6 的 复杂 性 主要 涉及 信 令 消息 ， 以 及 如 何 保证 它们 的 安全 。 这 些 消息 使 用 各 种 形式 
的 移动 扩展 头 部 ( 表 5-5 中 的 下 一 个 头 部 字段 值 为 135， 通 常 直接 称 为 移动 头 部 )， 因 此 移动 
IP 自身 实际 上 是 一 种 特殊 的 协议 。IANA 维护 各 种 头 部 类 型 注册 信息 (目前 17 被 保留 )， 以 
及 很 多 与 MIPv6 相关 的 参数 [MP]。 我 们 将 关注 [RFC6275] 定义 的 基本 信息 。 其 他 消息 用 于 
实现 “快速 切换 ”[RFC5568]、 改 变 家 乡 代理 [RFC5142] 和 实验 目的 [RFC5096]。 为 了 理解 
MIPv6， 我 们 开始 介绍 IP 移动 的 基本 模型 以 及 相关 术语 。 


5.5.1 基本 模型 : 双向 隧道 


图 5-17 显示 了 MIPv6 运行 中 涉及 的 实体 。 大 部 分 术语 也 适用 于 MIPv4 [RFC5944]。 一 
台 可 能 移动 的 主机 称 为 移动 节点 (MN)， 与 它 通 信和 的 主机 称 为 通信 节点 CCN). MN 被 赋予 
一 个 由 家 乡 网 络 的 网 络 前 级 获得 的 IP 地 址 。 这 个 地 址 称 为 家 乡 地 址 (HoA)。 当 它 漫游 到 一 
个 可 访问 的 网 络 时 ， 它 被 赋予 了 另 一 个 地 址 ， 称 为 转交 地 址 (CoA)。 在 基本 模型 中 ， 当 一 个 
CN 与 一 个 MN 通信 时 ， 该 流量 需要 通过 MN 的 家 乡 代理 (HA) 来 路 由 。HA 是 一 种 特殊 类 
型 的 路 由 器 ， 它 像 其 他 重要 系统 (例如 路 由 器 和 Web 服务 器 ) 一 样 部 署 在 网 络 基础 设施 中 。 
MN 的 HoA 和 CoA 之 间 的 关联 称 为 MN 绑 定 。 
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通信 节点 (CN) 


家 乡 代理 (HA ) 





家 乡 网 络 d Do 可 访问 的 网 络 


sa 移动 .------> 转交 地 址 (CoA ) 
HoA 
家 乡 地 址 (HoA ) 和 家 乡 地 址 (HoA) 


移动 节点 (MN) 
图 5-17 移动 IP 支持 节点 改变 自己 的 网 络 连 接点 ， 同 时 保持 网 络 连 接 操 作 的 能 力 。 移 动 节 点 的 家 乡 代 
理 为 移动 服务 转发 流量 ， 并 对 路 由 加 以 优化 ， 通 过 允许 移动 ， 以 及 在 通信 节点 之 间 直 接 通信 ， 
从 而 极 大 地 提高 了 路 由 性 能 


基本 模型 ( 见 图 5-17) 工作 在 一 个 MN 的 CN 不 使 用 MIPv6 协议 的 情况 下 。 在 整个 网 
络 移动 的 情况 下 ， 这 个 模型 用 于 支持 网 络 移动 ( 称 为 “NEMO”[RFC3963])。 当 MN (或 
移动 网 络 的 路 由 器 ) 连接 到 网 络 中 的 一 个 新 位 置 时 ， 它 接收 自己 的 CoA， 并 向 自己 的 HA 
发 送 一 个 绑 定 更 新 消息 。 这 个 HA 使 用 一 个 绑 定 确认 来 响应 。 如 果 一 切 顺 利 ， 这 个 MN 和 
CA 之 间 的 流量 通过 MN 的 HA 来 路 由 ， 并 使 用 一 种 双向 的 IPv6 分 组 隧道 ， 称 为 双向 隧道 
[RFC2473]。 这 些 消息 通常 使 用 IPsec 的 封装 安全 有 效 负 载 (ESP) 来 保护 ( 见 第 18 章 )。 这 
样 做 可 确保 一 个 HA 不 会 在 接收 到 一 个 伪造 的 MN 绑 定 更 新 时 被 欺骗 。 


5.5.2 ”路 由 优化 


双向 隧道 使 MIPv6 工作 在 一 种 相对 简单 的 方式 下 ， 并 使 用 那些 不 被 移动 IP 所 感知 的 
CN， 但 是 路 由 效率 可 能 非常 差 ， 特 别 是 在 MN 与 CN ZIBB, 但 与 HA 之 间距 离 较 远 
的 情况 下 。 为 了 改善 MIPv6 中 可 能 出 现 的 低 效 路 由 ， 可 使 用 一 种 称 为 路 由 优化 (RO) 的 方 
法 ， 只 要 它 被 涉及 的 各 个 节点 支持 。 正 如 我 们 所 见 ， 确 保 RO 安全 和 可 用 的 方法 相当 复杂 。 
我 们 将 描述 它 的 基本 操作 。 更 详细 的 内 容 见 [RFC6275] 和 [RFC4866]。RO 安全 相关 的 设计 
原理 见 [RFC4225]。 

在 使 用 RO 时 涉及 一 个 通信 注册 过 程 ， 一 个 MN 将 当前 CoA 通知 相应 CN， 人 允许 它们 
执行 无 须 HA 协助 的 路 由 。RO 操作 分 为 两 部 分 : 一 部 分 涉及 注册 绑 定 的 建立 和 维护 ; 另 一 
部 分 涉及 所 有 绑 定 建立 后 的 数据 报 交换 方法 。 为 了 与 自己 的 CN 建立 一 个 绑 定 ，MN 必须 向 
每 个 CN 证 明 自 己 的 真实 身份 。 这 通过 一 个 返回 路 由 程序 (RRP) 来 完成 。 支 持 RRP 的 消息 
在 MN 和 HA 之 间 不 使 用 IPsec。 在 MN 和 CN 之 间 工 作 的 IPsec 被 认为 并 不 可 靠 (IPv6 需要 
IPsec 支持 ， 但 不 要 求 必须 使 用 它 )。 虽 然 RRP 不 像 IPsec 那样 强大 ， 但 是 它 更 简单 ， 并 涵盖 
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IP 设计 者 关注 的 大 多 数 安全 威胁 。 

RRP 使 用 以 下 这 些 移动 消息 ， 它 们 是 IPv6 移动 扩展 头 部 的 子 类 型 : 家 乡 测试 初始 化 
(HoTI)、 家 乡 测试 (HoT)、 转 交 测 试 初始 化 (CoTI) 和 转交 测试 ( CoT)。 这 些 消息 向 CN 验 
证 一 个 特定 MN 的 家 乡 地 址 (HoTI 和 HoT 消息 ) 和 转交 地 址 (CoTI 和 CoT 消息 ) 可 到 达 。 
这 个 协议 如 图 5-18 所 示 。 


家 乡 代理 
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HoT (3) -----4----- 
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图 5-18 返回 路 由 检查 过 程 用 于 从 MN 向 CN 发 送 绑 定 更 新 ， 以 确保 路 由 的 优化 。 该 检查 的 目的 是 向 


CN 显示 MN 的 家 乡 地 址 和 转交 地 址 都 可 到 达 。 在 本 图 中 ， 通 过 间接 路 由 的 消息 都 用 虚线 箭 
头 表 示 。 数 字 表 示 消 息 顺序 ，HoTI 和 CoTI 消息 可 由 MN 同时 发 送 


为 了 理解 RRP， 我 们 来 看 一 个 简单 例子 : 只 有 一 个 MN 及 其 HA， 以 及 一 个 CN， 如 
图 5-18 所 示 。MN 开始 向 CN 发 送 HoTI 和 CoTI 消息 。HoTI 消息 在 到 达 CN 途中 通过 HA 
转发 。CN 以 某 种 顺序 接收 到 这 两 种 消息 ， 并 分 别 以 HoT 和 CoT 消息 响应 。HoT 消息 经 由 
HA 发 送 到 MN。 这 些 消息 中 包含 称 为 令 牌 的 随机 字符 串 ，MN 使 用 它 形成 一 个 加 密 密 钥 ( 见 
第 18 章 中 对 加 密 和 密 钥 基础 知识 的 讨论 )。 随 后 ， 这 个 密 钥 被 用 于 生成 发 送 给 CN 的 经 过 
认证 的 绑 定 更 新 。 如 果 成 功 的 话 ， 路 由 可 优化 ， 数 据 可 以 在 MN 与 CN 之 间 直 接 传输 ， 如 
图 5-19 所 示 。 


SRC: MN CoA 
DST: CN 

Home Addr Option: 通信 节点 
MN HoA 


到 达 CN 





KA CN 一 
SRC: CN 
DST: MN CoA 





Rtg Hdr 2: MN HoA 


KI 5-19 当 MN 与 CN 之 间 的 绑 定 建立 时 ， 数 据 可 以 直接 在 它们 之 间 传 输 。 从 MN 到 CN 的 方向 使 用 
IPv6 家 乡 地 址 目的 地 选项 。 相 反方 向 使 用 类 型 2 的 路 由 头 部 (RH2 ) 
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当 一 个 绑 定 成 功 建立 后 ， 数 据 可 直接 在 MN 和 CN 之 间 流 动 ， 而 无 须 使 用 效率 低 的 双向 
隧道 。 对 于 从 MN 到 CN 的 流量 ， 可 使 用 IPv6 家 乡 地 址 目的 地 选项 ; 对 于 相反 方向 的 流量 ， 
可 使 用 类 型 2 的 路 由 头 部 (RH2 )， 详 见 图 5-19。 从 MN 到 CN 的 分 组 中 包括 MN 的 CoA 的 
源 IP 地 址 字段 ， 从 而 避免 人 口 过 滤 问 题 [RFC2827]， 它 可 能 导致 包含 MN 的 HoA 的 源 IP 地 
址 字段 的 分 组 被 丢弃 。 由 于 包含 在 家 乡 地 址 选项 中 的 MN 的 HoA 不 会 被 路 由 器 处 理 ， 因 此 
它 可 不 经 修改 通过 路 由 器 到 达 CN。 在 返回 的 路 径 上 ， 分 组 被 发 送 到 MN 的 CoA。 在 成 功 接 
收 返回 的 分 组 后 ，MN 处 理 扩展 头 部 并 用 包含 在 RH2 中 的 HoA 替换 目的 IP 地 址 。 这 个 分 组 
被 交付 给 MN 协议 栈 其 余部 分 ， 因 此 应 用 程序 “相信 ”自己 正在 使 用 的 是 MN 的 HoA， 而 
不 是 用 于 建立 连接 和 其 他 操作 的 CoA。 


5.5.3 ”讨论 


有 很 多 关于 移动 IP 的 问题 。 它 被 设计 为 可 处 理 某 种 类 型 的 地 址 移动 : 一 个 节点 的 人 地 
址 可 能 改变 ， 同 时 底层 的 链 路 层 或 多 或 少 保持 连接 。 这 种 用 法 对 于 便携 式 计算 机 并 不 常见 ， 
它们 在 不 同 地 点 之 间 移 动 的 过 程 中 ,通常 会 关机 或 进入 休 卢 状态。 在 需要 移动 IP (特别 是 
MIPv6 ) 的 使 用 模型 中 ， 更 常见 的 设备 是 大 量 采 用 IP 的 智能 手机 。 这 些 设备 可 能 会 运行 有 
延 时 要 求 的 实时 应 用 (例如 VoIP)。 因 此 ， 为 了 减少 执行 绑 定 更 新 所 需 的 时 间 ， 目 前 已 有 几 
种 方法 正在 探索 中 。 这 些 方法 包括 快速 切换 [RFC5568] 、 一 种 称 为 分 层 MIPv6 ( HMIPv6 ) 的 
MIPv6 修改 方案 [RFC5380]， 以 及 MN 所 需 的 移动 信号 由 代理 执行 的 修改 方案 ( 称 为 代理 
MIPv6 或 PMIPv6 [RFC5213]). 


5.6 IP 数据 报 的 主机 处 理 


虽然 路 由 器 在 转发 分 组 时 通常 不 会 考虑 将 哪个 IP 地 址 放 在 分 组 的 源 IP 地 址 和 目的 IP 地 
址 字段 中 ， 但 主机 必须 考虑 它们 。 应 用 程序 (例如 Web 浏览 器 ) 可 能 尝试 连接 一 台 指 定 的 主 
机 或 服务 器 ， 它 们 也 可 能 有 多 个 地 址 。 因 此 ， 发 送 数据 报时 使 用 哪个 地 址 (和 1IP 版 本 ) 就 有 
问题 。 我 们 将 探讨 一 个 更 微妙 的 事 ， 如 果 流 量 到 达 一 个 错误 的 接口 〈 即 接收 的 数据 报 中 存在 
未 配置 的 目的 地 址 )， 是 否 接 收发 送 到 本 地 IP 地 址 的 流量 。 


5.6.1 主机 模式 


虽然 可 能 有 一 个 简单 的 决策 方法 ， 确 定 一 个 单 播 数据 报 是 否 匹 配 一 台 主 机 的 IP 地 址 并 
被 处 理 ， 它 取决 于 接收 系统 的 主机 模式 [RFC1122]， 以 及 它 是 否 为 最 相关 的 多 宿主 主机 。 这 
里 存在 两 种 主机 模式 : 强 主机 模式 和 弱 主 机 模式 。 在 强 主机 模式 中 ， 只 有 当 目 的 IP 地 址 字 
段 中 包含 的 IP 地 址 与 数据 报到 达 的 接口 配置 的 IP 地址 匹配 时 ， 才 同意 把 将 数据 报 交 付 本 地 
协议 栈 。 在 弱 主 机 模式 的 系统 实现 中 ,实际 情况 相反 ， 一 个 数据 报 携带 的 目的 地 址 与 它 到 达 
的 任何 接口 的 任何 本 地 地 址 匹配 ， 无论 它 到 达 哪 个 网 络 接口 ， 它 都 会 被 接收 的 协议 栈 处 理 。 
主机 模式 也 适用 于 发 送行 为 。 也 就 是 说 ， 只 有 当 接 口 配 置 的 地 址 与 发 送 数据 报 的 源 P 地 址 
字段 匹配 时 ， 这 人 台 采 用 强 主 机 模式 的 主机 才 可 从 这 个 特定 接口 发 送 数据 报 。 

图 5-20 显示 了 一 种 应 用 主机 模式 的 情况 。 在 这 个 例子 中 ， 两 台 主机 (A AB) 通过 全 球 
Internet 连接 ， 但 也 可 以 通过 本 地 网 络 连接 。 如 果 主 机 A 设置 为 强 主机 模式 ， 它 从 Internet 
接收 到 一 个 目的 地 为 203.0.113.1 的 分 组 ， 或 从 本 地 网 络 中 接收 到 一 个 目的 地 为 192.0.2.1 的 
分 组 ， 这 些 分 组 都 会 被 丢弃 。 如 果 主 机 B 配置 为 弱 主 机 模式 ， 另 一 种 情况 可 能 会 出 现 。 它 可 
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能 选择 使 用 本 地 网 络 (这 样 可 能 更 方便 或 更 快 ) 向 192.0.2.1 发 送 分 组 。 不 幸 的 是 ， 当 主机 A 
接收 到 某 些 似乎 完全 合法 的 分 组 ， 只 是 由 于 它 运行 在 强 主 机 模式 下 ,该 主机 会 丢弃 这 些 分 
组 。 因 此 ， 我们 要 提出 的 一 个 问题 是 : 为 什 
么 强 主机 模式 曾 是 一 个 好 的 方案 ? 

与 强 主机 模式 的 吸引 力 相 对 应 的 是 安全 
问题 。 如 图 5-20 所 示 ， 亚 意 用 户 在 Internet 
中 生成 一 个 目的 地 址 为 203.0.113.2 的 分 组 。 
这 个 分 组 可 能 还 包括 伪造 (“欺骗 ”) 的 源 了 
地 址 (例如 203.0.113.1)。 如 果 Internet 将 这 
个 分 组 路 由 到 主机 B，B 中 运行 的 应 用 程序 可 
能 被 欺骗 ， 相 信 它 接收 的 流量 来 源 于 主机 A。 
如 果 应 用 程序 执行 基于 源 IP 地 址 的 访问 控制 
决策 ， 这 样 可 能 带 来 明显 的 负面 后 果 。 

无 论 用 于 发 送 还 是 接收 行为 ， 都 可 在 一 些 
操作 系统 中 配置 主机 模式 。 在 Windows (Vista 图 5-20 主机 可 能 通过 多 个 接口 连接 。 在 这 种 情 
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和 更 高 版 本 ) 中 ， 强 主机 模式 是 IPv4 和 IPv6 况 下 ， 它 们 必须 决定 哪些 地 址 用 于 分 组 
发 送 和 接收 的 默认 模式 。 在 Linux 中 ， 卫 操作 的 源 耳 地址 和 目的 JP 地 址 字段 。 这 些 
默认 采用 弱 主 机 模式 。BSD (包括 Mac OS X) 地 址 取决 于 每 台 主 机 的 转发 表 、 地 址 选 
使 用 强 主 机 模式 。 在 Windows 中 ， 以 下 命令 择 算法 应 用 [RFC 3484]， 以 及 主机 操作 
用 于 配置 基于 弱 主 机 的 接收 和 发 送行 为 ;: 使 用 弱 或 强 主机 模式 等 


C:\> netsh interface ipvX set interface <ifname> weakhostreceive=Yabled 


C:\> netsh interface ipvX set interface <ifname> weakhostsend=Yabled 


对 于 这 些 命令 ，<ifname> 替换 为 相应 接口 名 称 ; X 替换 为 4 或 6， 具体 取 决 于 配置 的 是 
哪个 版 本 的 IP; 而 Y 替换 为 en 或 dis， 取 决 于 启用 还 是 禁用 弱 主 机 模式 。 


5.6.2 ”地 址 选择 


当 一 台 主 机 发 送 一 个 IP 数据 报时 ， 它 必须 将 自己 的 IP 地址 写 和 人 数据 报 的 源 IP 地 址 字 
段 ， 在 它 已 知 多 个 地 址 的 情况 下 ， 数 据 报 的 目的 地 址 确定 一 台 特 定 的 目的 主机 。 在 有 些 情况 
下 源 地 址 是 已 知 的 ， 这 是 因为 它 可 以 由 一 个 应 用 程序 提供 ,或 者 为 响应 同一 连接 的 前 一 个 分 
组 而 发 送 该 分 组 ( 详 见 第 13 章 中 如 何 用 TCP 管理 地 址 )。 

在 当前 的 了 P 实现 中 ,数据 报 的 源 IP 地 址 和 目的 IP 地 址 字段 中 使 用 的 了 P 地址 ， 是 通过 
一 组 称 为 源 地 址 选择 程序 和 目的 地 址 选择 程序 获得 的 。 从 历史 上 来 看 ， 大 多 数 Internet 主机 
只 有 一 个 IP 地址 用 于 外 部 通信 ， 因 此 选择 地 址 并 不 是 很 困难 。 随 着 一 个 接口 可 使 用 多 个 地 
址 和 支持 多 个 地 址 范围 的 IPv6 的 使 用 ， 有 些 程序 必须 开始 使 用 。 当 两 人 台 实 现 IPv4 和 IPv6 
(“ 双 协议 栈 ” 主 机 见 [RFC4213]) 的 主机 之 间 通 信 时 ， 这 个 情况 变 得 更 复杂 。 地 址 选择 失败 
可 能 导致 非 对 称 路 由 、 不 必要 的 过 滤 或 丢弃 分 组 。 解 决 这 些 问 题 将 是 一 个 挑战 。 

[RFC3484] 给 出 了 IPv6 默认 地 址 的 选择 规则 ， 纯 IPv4 主机 通常 不 会 面临 这 样 复杂 的 问 
题 。 一 般 情 况 下 ， 应 用 程序 可 调用 特定 的 API 执行 默认 操作 ， 正 如 上 面 所 提 到 的 那样 。 即 使 


这 样 ， 棘 手 的 部 署 问题 还 是 可 能 出 现 [RFC5220]。[RFC3484] 中 的 默认 规则 是 优先 在 相同 范 
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围 内 选择 成 对 的 源 / 目的 地 址 ， 优 先 选 择 更 小 而 不 是 更 大 的 范围 以 避免 在 其 他 地 址 可 用 时 使 
用 临时 地 址 ， 以 及 优先 选择 具有 更 长 的 通用 前 组 的 成 对 地 址 。 当 全 球 地 址 有 效 时 ， 优 先 选 择 
它 而 不 是 临时 地 址 。 这 个 规范 也 包括 “管理 覆盖 ”默认 规则 的 方法 ， 但 这 是 具体 的 部 署 问题 ， 
我 们 不 做 进一步 讨论 。 

默认 地 址 选择 通过 一 个 策略 表 来 控制 ， 它 (至 少 在 理论 上 ) 存在 于 每 台 主 机 中 。 它 是 一 
个 最 长 匹配 前 级 查找 表 ， 类 似 于 I 人 P 路 由 使 用 的 转发 表 。 对 于 一 个 地 址 A， 在 该 表 中 进行 一 
次 查找 过 程 ， 对 A 生成 一 个 优先 级 PLA)， 以 及 一 个 标签 L(A)。 优 先 级 的 数值 越 大 ， 表 示 更 
加 偏好 。 标 签 用 于 相似 地 址 类 型 的 分 组 。 例 如 ， 如 果 L(S) = LID)， 该 算法 倾向 于 使 用 该 对 
(S, D) 作为 源 /目的 地 址 对 。 如 果 没 有 规定 其 他 策略 ，[RFC3484] 建议 使 用 表 5-10 中 的 策 
略 值 。 


表 5-10 [RFC3484] 的 默认 主机 策略 表 。 更 高 的 优先 级 数值 表明 一 个 更 大 的 偏好 


"a “Ti 


这 个 表 或 一 个 按 管理 配置 参数 在 站 点 中 配置 的 表 ， 用 于 驱动 地 址 选择 算法 。 函 数 
CPL(A, B) 或 “通用 前 缀 长 度 "， 是 在 IPv6 地 址 A 和 了 B 中 从 最 左边 的 位 开始 的 一 个 最 长 通 
用 前 缀 的 位 长 度 。 函 数 SCA) 将 IPv6 地 址 A 的 范围 映射 到 一 个 数值 ， 范 围 越 大 ， 映 射 的 值 越 
大 。 如 果 .A 是 链 路 范围 ，B 是 全 球 范围 ， 则 S(A) < S(B)。 函 数 M(A) 将 IPv4 地 址 A 映射 为 
一 个 IPv4 映射 的 IPv6 地 址 。 由 于 IPv4 地 址 范围 是 基于 地 址 自身 ， 因 此 需要 定义 以 下 关系 : 
S(M(169.254.xx) = S(M(127.xxx)) < S ( M (专用 地 址 空间 ))< S (M (任何 其 他 地 址 ))。 符 号 
A(A) 是 地 址 的 生命 周期 ( 见 第 6 章 )。 如 果 A 是 一 个 过 期 地 址 (不 鼓励 使 用 的 地 址 ),， 而 B 是 
一 个 首选 地 址 (优先 选择 使 用 的 地 址 )， 则 A (A) < A(B)。 最 后 ， 如 果 A 是 一 个 家 乡 地 址 ， 则 
H(A) 为 真 ; 如果 A 是 一 个 转交 地 址 ， 则 CA) 为 真 。 最 后 两 个 术语 仅 用 于 移动 IP 中 。 


5.6.2.1 源 地 址 选择 算法 

源 地 址 选择 算法 定义 了 一 个 源 地 址 的 候选 集合 CS(D)， 它 基于 一 个 特定 的 目的 地 址 
D。 这 里 有 一 个 限制 ， 对 于 任何 D, 任 播 、 组 播 和 未 指定 地 址 从 未 出 现在 CS(D) 中 。 我 们 
使 用 符号 RA) 表示 地 址 A 在 集合 CS(D) 中 的 等 级 。 在 CS(D) 中 ,A 比 B 的 等 级 更 高 ( 即 
R(A) 值 更 大 )， 表 示 R(A) > R(B)， 意 味 着 优先 选择 A 而 不 是 B 作为 到 达 地 址 D 的 源 地 址 。 
表达 式 R(A) * > R(B) 表示 在 CS(D) 中 为 A 分 配 一 个 比 B 更 高 的 等 级 。 符 号 I(D) 表示 选 
择 (通过 前 面 所 述 的 最 长 匹配 前 级 转发 算法 ) 到 达 目 的 地 DD 的 接口 。 符 号 @(i) 是 分 配给 接 
口 i 的 地 址 集合 。 如 果 A 是 一 个 临时 地 址 ( 见 第 6 章 )，T(A) 为 布尔 值 true ; 否则 ，T(A) 为 
false。 

以 下 规则 用 于 为 目的 地 D 建立 地 址 A 和 B 在 CS(D) 中 的 局 部 顺序 : 

1. 优先 选择 相同 地 址 : if A=D, R(A) *> R(B); ifB=D, R(B) *> R(A)。 

2. 优先 选择 适当 范围 : if S(A) < S(B) and S(A) < S(D), R(B) *> R(A) else R(A)*> R(B) ; 
if S(B) < S(A) and S(B) < S(D), R(A) *> R(B) else R(B) *> R(A)。 
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3. 避免 过 期 地 址 : if S(A)=S(B), {if A(A)< A(B), R(B) *> R(A) else R(A) *> R(B)}。 

4. 优先 选择 家 乡 地 址 : if H(A) and C(A) and - (C(B) and H(B)), R(A) *> R(B) ; if H(B) 
and C(B) and - (C(A) and H(A)), R(B) *> R(A) ; if (H(A) and - C(A)) and (- H(B) and C(B)), 
R(A) *> R(B); if (H(B) and ~ C(B)) and (- H(A) and C(A)), R(B) *> R(A). 

5. 优先 选择 输出 接口 : if A E @ (I(D)) and B E @ (I(D)),R(A) *> R((B); ifB E @ (I((D)) 
and A E @ (I(D)), R(B) *> R(A)。 

6. 优先 选择 匹配 标签 : if L(A) = L(D) and L(B) # L(D), R(A) *> R(B) ; if L(B) = L(D) 
and L(A) # L(D), R(B) *> R(A). 

7. 优先 选择 非 临时 地 址 : if T(B) and -T(A), R(A) *> R(B); if T(A) and -T(B), R(B) *> 
R(A). 

8. 使 用 最 长 匹配 前 缀 : if CPL(A, D) > CPL(B, D), R(A) *> R(B); if CPL(B, D) > 
CPL(A, D), R(B) *> R(A). 

局 部 顺序 规则 可 用 于 形成 CS(D) 中 所 有 候选 地 址 的 全 局 顺序 。Q(D) 表示 为 目的 地 D 选 
择 一 个 最 高 等 级 的 源 地 址 ， 它 由 目的 地 址 选择 算法 来 使 用 。 如 果 Q(D) = @( 空 )， 可 能 无 法 为 
目的 地 D 确定 源 地 址 。 


5.6.2.2 目的 地 址 选择 算法 

我 们 讨论 默认 目的 地 址 选择 问题 。 该 算法 指定 了 一 种 类 似 于 源 地 址 选择 的 方式 。 回 想 一 
下 ，Q(D) 是 上 面 例子 中 为 目的 地 D 选择 的 源 地 址 。 如 果 目 的 地 B 不 可 到 达 ， 则 令 UB) 为 布 
尔 值 tue。E(A) 表示 采用 某 些 “封装 传输 ”( 例 如 ， 隧 道路 由 ) 可 到 达 目 的 地 A。 集 合 SD(S) 
采用 与 前 面 的 成 对 元 素 A 和 B 相同 的 结构 ， 我 们 可 获得 以 下 规则 ; 

1. 避免 不 可 用 的 目的 地 : if UCB) or Q(B) = Ø, R(A) *> R(B) ; if U(A) or Q(A) = Ø, 
R(B) *> R(A). 

2. 优先 选择 匹配 范围 : if S(A) = S(Q(A)) and S(B) # S(Q(B)), R(A) *> R(B); if 
S(B) = S(Q(B)) and S(A) # S(Q(A)), R(B) *>R(A)。 

3. 避免 过 期 地 址 : if A(Q(A)) < A(Q(B)), R(B) *> R(A) ; if A(Q(B)) < A(Q(A)), R(A) *> 
R(B). 

4. 优先 选择 家 乡 地 址 : if H(Q(A)) and C(Q(A)) and ~ (C(Q(B)) and H(Q(B))), R(A) *> 
R(B) ; if (Q(B)) and C(Q(B)) and = (C(Q(A)) and H(Q(A))), R(B) *> R(A) ; if (H(Q(A)) and - 
C(Q(A))) and (~ H(Q(B)) and C(Q(B))), R(A) *> R(B); if CH(Q(B)) and - C(Q(B))) and (~ H(Q(A)) 
and C(Q(A))), R(B) *> R(A). 

5. 优先 选择 匹配 标签 : if L(Q(A)) = L(A) and L(Q(B)) # L(B),R(A) *> R(B); if L(Q(A)) # 
L(A) and L(Q(B)) = L(B), R(B) *> R(A)。 

6. 优先 选择 更 高 优先 级 : if P(A) > P(B), R(A) *> R(B); if P(A) < P(B), R(B) *> R(A)。 

7. 优先 选择 本 地 传输 : if E(A) and - E(B), R(B) *> R(A) ; if E(B) and - E(A), R(A) *> 
R(B). 

8. 优先 选择 更 小 范围 : if S(A) < S(B), R(A) *> R(B) else R(B) *> R(A). 

9. 使 用 最 长 匹配 前 级 : if CPL(A, Q(A)) > CPL(B, Q(B)), R(A) *> R(B); if CPL(A, 
Q(A)) < CPL(B, Q(B)), R(B) *> R(A)。 

10. 否则 ， 保 持 等 级 顺序 不 变 。 

针对 源 地 址 的 选择 问题 ， 这 些 规则 形成 一 个 在 可 能 的 目的 地 集合 SD (S) 中 两 个 元 素 之 
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间 的 偏 序 。 最 高 等 级 地 址 给 出 了 目的 地 址 选择 算法 的 输出 。 正 如 前 面 所 说 ， 这 个 算法 操作 
(例如 目的 地 址 选择 的 第 9 步 可 能 导致 DNS 轮 询问 题 ， 见 第 11 章 ) 会 带 来 一 些 问 题 。 因 此 ， 
[RFC3484- 修订 ] 正 考 虑 对 [RFC3484] 加 以 更 新 。 重 要 的 是 ,该 修订 解决 了 地 址 选择 算法 如 
何 处 理 唯 一 本 地 IPv6 单 播 地 址 (ULA) 的 问题 [RFC4193]。ULA 是 全 球 范围 的 IPv6 地 址 ， 
它 被 限制 只 能 用 于 专用 网 络 中 。 


5.7 与 IP 相关 的 攻击 


前 些 年 已 有 一 些 针 对 IP 协议 的 攻击 ， 主 要 是 基于 选项 操作 ,或 利用 专用 代码 中 的 错误 
(例如 分 片 重组 )。 由 于 一 个 或 多 个 IP 头 部 字段 无 效 (例如 错误 的 头 部 长 度 或 版 本 号 )， 简 单 
的 攻击 就 能 让 一 台 路 由 器 崩溃 或 性 能 下 降 。 通 常情 况 下 ， 当 前 Internet 中 的 路 由 器 会 忽略 或 
剥离 IP 选项 ， 并 在 基本 分 组 的 处 理 中 修复 错误 。 因 此 ， 这 些 类 型 的 简单 攻击 不 是 大 问题 。 
涉及 分 片 的 攻击 可 使 用 其 他 方法 解决 [RFC1858] [RFC3128]。 

如 果 没 有 身份 认证 或 加 密 (或 在 IPv6 中 被 禁用 )，IP 欺骗 攻击 是 有 可 能 发 生 的 。 一 些 早 
期 的 攻击 涉及 对 源 IP 地 址 的 伪造 。 早 期 的 访问 控制 机 制 基 于 源 IP 地 址 ， 很 多 这 样 的 系统 已 
不 再 使 用 。 欺 骗 有 时 与 源 路 由 选项 组 合 使 用 。 在 某 些 情况 下 ,远程 攻击 者 的 计算 机 可 能 看 起 
来 像 本 地 网 络 中 的 一 台 主 机 (甚至 是 同一 计算 机 ) 在 请 求 某 种 服务 。 虽 然 IP 地 址 的 欺骗 当前 
仍然 受 关注 ， 但 有 几 种 方法 可 限制 其 危害 ， 包 括 和 人 口 过 滤 [RFC2827][RFC3704] 一 一 ISP 通 过 
入 口 过 滤 检 查 客户 流量 的 源 地 址 ， 以 确保 数据 报 包含 一 个 指定 的 IP 前 缀 。 

IPv6 和 移动 IP 相对 较 新 ， 至 少 相 对 于 IPv4 来 说 ， 它 的 所 有 漏洞 无 疑 尚未 被 发 现 。 由 于 
有 更 新 、 更 灵活 的 选项 头 部 类 型 ， 攻 击 者 可 对 IPv6 分 组 的 处 理 有 相当 大 的 影响 。 例 如 ， 路 
由 头 部 (类 型 0 ) 被 发 现 有 严重 的 安全 问题 ， 目 前 已 完全 废弃 使 用 它 。 其 他 可 能 的 问题 包括 
源 地 址 和 /或 路 由 头 部 的 欺骗 ， 使 分 组 看 起 来 好 像 来 自 其 他 地 方 。 这 些 攻击 可 通过 配置 分 组 
过 滤 防 火 墙 ， 并 查看 路 由 头 部 内 容 来 避免 。 值 得 一 提 的 是 ， 如 果 仅 简单 地 过 滤 所 有 包含 IPv6 
扩展 头 部 和 选项 的 分 组 ， 这 将 会 严重 限制 其 使 用 。 特 别 是 ， 禁 用 扩展 头 部 将 影响 移动 IPv6 
的 正常 运行 。 


5.8 总结 


在 本 章 中 ,我 们 首先 介绍 IPv4 和 IPv6 头 部 ， 讨 论 一 些 相 关 的 功能 ， 例 如 Internet 校 验 
和 与 分 片 。 我 们 分 析 IPv6 如 何 增加 地 址 空间 ， 改 进 方案 包括 在 分 组 中 使 用 扩展 头 部 ， 以 及 
从 IPv4 头 部 中 删除 一 些 不 重要 的 字段 。 随 着 这 些 功能 的 增加 ，IP 头 部 大 小 增 大 为 原来 的 2 
倍 ， 但 地 址 空间 增 大 为 原来 的 4 倍 。IPv4 和 IPv6 头 部 不 能 直接 兼容 ， 并 且 只 共享 了 4 位 的 
版 本 字段 。 因 此 ，IPv4 和 IPv6 节点 互 连 需 要 某 个 层次 的 转换 。 双 协议 栈 主机 需要 同时 实现 
IPv4 和 IPv6， 但 必须 选择 何 时 使 用 哪 种 协议 。 

IP 从 出 现 开 始 就 包含 一 个 头 部 字段 ， 表 示 每 个 数据 报 的 流量 类 型 或 服务 类 别 。 这 种 机 制 
近年 来 已 被 重新 定义 ， 以 便 在 Internet 上 支持 差异 化 的 服务 。 如 果 它 被 广泛 实现 ，Internet 可 
能 以 标准 的 方式 为 某 些 流 量 或 用 户 提供 更 好 的 性 能 。 这 种 情况 能 进展 到 何 种 程度 ， 部 分 取决 
于 围绕 差异 化 服务 能 力 的 商业 模式 的 发 展 。 

IP 转发 描述 了 IP 数据 报 通过 单一 和 多 跳 网 络 的 传输 方式 。 除 了 那些 需 特 殊 处 理 的 情况 ， 
IP 转发 在 逐 跳 的 基础 上 进行 。 数 据 报 的 目的 IP 地 址 经 过 每 跳 时 都 不 改变 ， 但 是 链 路 层 封 装 
和 链 路 层 目 的 地 址 在 每 跳 时 会 改变 。 主 机 和 路 由 器 使 用 转发 表 和 最 长 前 缀 匹配 算法 ， 以 确定 
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匹配 得 最 好 的 转发 条 目 ， 以 及 沿 着 一 条 转发 路 径 的 下 一 跳 。 在 很 多 情况 下 ， 最 简单 的 表 只 包 
含 一 个 默认 路 由 就 足够 了 ， 只 要 它 能 公平 匹配 所 有 可 能 的 目的 地 。 

通过 一 组 特殊 的 安全 和 信 令 协议 ,移动 IP 在 移动 节点 的 家 乡 地 址 和 转交 地 址 之 间 建 立 
安全 绑 定 。 这 些 绑 定 可 用 于 与 移动 节点 通信 ， 即 使 它 并 不 在 家 乡 内 部 。 这 个 基本 功能 涉及 通 
过 家 乡 代理 的 隧道 流量 ,但 这 可 能 会 导致 非常 低 效 的 路 由 。 一 些 人 额外 的 功能 可 支持 路 由 优 
化 ， 人 允许 移动 节点 与 其 他 远程 节点 直接 通信 ， 反 之 亦 然 。 这 要 求 移动 节点 的 主机 支持 MIPv6 
和 路 由 优化 ， 它 是 一 个 可 选 的 功能 。 当 前 研究 致力 于 减少 路 由 优化 绑 定 更 新 过 程 中 的 延 时 。 

我 们 也 讨论 了 强 主机 或 弱 主 机 模式 如 何 影 响 IP 数据 报 的 处 理 。 在 强 主机 模式 下 ， 只 人 允 
许 每 个 接口 接收 或 发 送 包含 该 接口 相关 地 址 的 数据 报 ， 而 弱 主 机 模式 的 限制 较 少 。 弱 主机 模 
式 允 许 在 某 些 特殊 情况 下 通信 ， 但 它 可 能 更 容易 遭受 某 些 形式 的 攻击 。 主 机 模式 还 涉及 主机 
如 何 选 择 通 信 时 使 用 的 地 址 。 早 期 ,大 多 数 主 机 只 有 一 个 IP 地 址 ， 因 此 做 出 决定 相当 简单 。 
一 台 IPv6 主机 可 能 有 多 个 IP 地 址 ， 多 宿主 主机 可 能 使 用 多 个 网 络 接口 ， 这 时 要 做 出 决定 并 
不 容易 ， 并 可 能 对 路 由 产生 很 大 的 影响 。 目 前 已 经 有 一 些 地 址 选择 算法 (针对 源 和 目的 地 
HE), 这些 算法 倾向 于 选择 范围 有 限 、 永 久 性 的 地 址 。 

我 们 讨论 了 一 些 针对 IP 协议 的 攻击 。 这 种 攻击 通常 涉及 地 址 欺骗， 包括 利用 选项 来 改 
变 路 由 行为 ， 以 及 试图 利用 IP 实现 中 的 漏洞 ， 特 别 是 有 关 分 片 的 漏洞 。 很 多 协议 实现 中 的 
漏洞 在 现代 操作 系统 中 已 修复 ， 在 大 多 数 情况 下 ,企业 边缘 路 由 器 通常 会 禁用 选项 。 尽 管 欺 
骗 仍 会 受到 某 些 关注 ， 但 人 口 过 滤器 这 类 程序 有 助 于 解决 这 个 问题 。 
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系统 配置 : DACP 和 自动 配置 





6.1 引言 


为 了 使 用 TCP/IP 协议 族 ， 每 台 主 机 和 路 由 器 需要 一 定 的 配置 信息 。 配 置信 息 用 于 为 系 
统 指定 本 地 名 称 ， 以 及 为 接口 指定 标识 符 〈 例 如 IP 地址 )。 它 还 用 于 提供 或 使 用 各 种 网 络 服 
务 ， 例 如 域名 系统 (DNS) 和 移动 IP 家乡 代 理 。 多 年 来 ,已 有 很 多 方法 可 提供 和 获得 这 种 信 
息 , 但 基本 上 采用 3 种 方法 : 手工 获得 信息 ， 通 过 一 个 系统 获得 使 用 的 网 络 服务 ， 或 使 用 某 
种 算法 自动 确定 。 我 们 将 讨论 上 述 的 每 种 方法 ， 了 解 它们 如 何 用 于 IPv4 和 IPv6。 掌 握 如 何 
配置 系统 是 很 重要 的 ， 它 是 每 个 系统 管理 员 需 要 面 对 的 问题 ， 几 乎 每 个 终端 用 户 或 多 或 少 都 
要 和 它 打交道 。、 

我 们 回忆 第 2 章 的 内 容 ，TCP/IP 网 络 中 的 每 个 接口 都 需要 一 个 IP 地 址 、 子 网 掩 码 和 广 
播 地 址 (IPv4 )。 广 播 地 址 通常 可 通过 地 址 和 掩 码 来 确定 。 系 统 只 要 有 最 基本 的 信息 ， 就 能 
与 同一 子 网 中 的 其 他 系统 通信 。 为 了 与 本 地 子 网 之 外 的 系统 通信 (在 第 5 章 中 称 为 间接 交 
付 )， 系 统 需要 一 个 路 由 或 转发 表 ， 以 确定 到 达 不 同 目 的 地 的 路 由 器 。 为 了 能 够 使 用 某 些 服 
务 (例如 Web 和 E-mail), 使 用 DNS ( 见 第 11 Bt) 将 用 户 可 理解 的 域名 映射 为 低层 协议 所 需 
的 IP 地 址 。 由 于 DNS 是 一 个 分 布 式 的 服务 ， 使 用 它 的 任何 系统 必须 知道 如 何 到 达 至 少 一 台 
DNS 服务 器 。 拥 有 一 个 IP 地 址 和 子 网 掩 码 ， 以 及 DNS 服务 器 和 路 由 器 的 卫 地 址 ， 这 是 一 
个 系统 能 够 在 Internet 上 运行 并 提供 常用 服务 (例如 Web 和 E-mail) 的 “基本 要 素 ”。 为 了 
使 用 移动 了 ， 系 统 还 需要 知道 如 何 找到 一 个 家 乡 代理 。 

在 本 章 中 ， 我 们 将 主要 关注 在 Internet 客户 端 主机 中 用 于 建立 基本 要 素 的 协议 和 程序 : 
动态 主机 配置 协议 (DHCP) 以 及 IPv4 和 IPv6 中 的 无 状态 地 址 自动 配置 。 我 们 还 将 讨论 ISP 
如 何 使 用 PPP 结合 以 太 网 来 配置 客户 端 系统 。 服 务 器 和 路 由 器 常 通过 手工 配置 ， 通 常 将 相 
关 配 置信 息 输入 一 个 文件 或 图 形 用 户 界面 。 这 种 区 别 出 于 以 下 几 个 原因 。 第 一 ， 客 户 端 主机 
通常 比 服务 器 和 路 由 器 更 容易 移动 ， 这 意味 着 应 提供 灵活 的 重新 分 配 其 配置 信息 的 机 制 。 第 
二 ， 服 务 器 主机 和 路 由 器 都 希望 “永远 可 用 ”和 相对 自治 。 因 此 ， 它 们 的 配置 信息 不 依赖 于 
其 他 网 络 服务 ， 能 为 它们 提供 更 好 的 可 靠 性 。 第 三 ， 与 服务 器 或 路 由 器 相 比 ， 客 户 机 属于 某 
个 组 织 是 更 常见 的 情况 ， 通 过 一 种 集中 服务 来 动态 分 配 客户 端 主机 的 配置 信息 ， 这 样 将 会 更 
简单 也 更 不 容易 出 错 。 第 四 ， 客 户 机 操作 者 通常 比 服务 器 和 路 由 器 管理 者 拥有 更 少 的 系统 管 
理 经 验 ， 因 此 由 一 个 有 经 验 的 管理 者 对 多 数 客户 机 进行 集中 管理 更 不 容易 出 错 。 

除了 上 述 基 本 要 素 之 外 ， 主 机 或 路 由 器 的 配置 信息 可 能 还 需要 很 多 其 他 要 素 ， 这 取决 于 
它 使 用 或 提供 的 服务 类 型 。 它 们 可 能 包括 家 乡 代 理 、 组 播 路 由 器 、VPN 网 关 和 会 话 发 起 协议 
(SIP) /VoIP 网 关 的 位 置 。 有 些 服务 有 标准 化 的 机 制 和 支持 协议 ， 以 便 获 得 相关 的 配置 信息 ; 
有 些 服务 没有 相关 的 协议 ， 但 要 求 用 户 输入 必要 的 信息 。 


6.2 动态 主机 配置 协议 
DHCP[RFC2131] 是 一 种 流行 的 客户 机 /服务 器 协议 ， 它 用 于 为 主机 (有 时 也 为 路 由 器 ) 
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指定 配置 信息 。DHCP 在 企业 和 家 庭 网 络 中 广泛 使 用 ， 甚 至 最 基础 的 家 庭 路 由 器 设备 都 支持 
fie Ask DHCP 服务 器 。 几 乎 所 有 常用 的 客户 端 操作 系统 和 大 量 的 戏 人 式 设 备 (例如 网 络 打印 
机 和 VoIP 电话 ) 都 支持 DHCP 客户 机 。 这 些 设 备 通常 使 用 DHCP 获得 下 地 址 、 子 网 掩 码 、 
路 由 器 的 IP 地 址 、DNS 服务 器 的 IP 地 址 。 其 他 服务 的 相关 信息 (例如 使 用 VoIP 的 SIP 服务 
ar) 也 可 通过 DHCP 传输 。 由 于 DHCP 的 最 初 设想 是 供 IPv4 使 用 ， 因 此 本 章 中 讨论 它 及 其 
与 IP 的 关系 时 都 指 的 是 IPv4 版 本 ， 除 非 另外 加 以 说 明 。IPv6 使 用 的 DHCP 版 本 是 DHCPv6 
[RFC3315]， 我 们 将 在 6.2.5 节 加 以 讨论 ， 但 IPv6 还 支持 自己 的 自动 程序 来 确定 配置 信息 。 
在 一 种 混合 配置 模式 中 ，IPv6 自动 配置 和 DHCPv6 可 结合 使 用 。 

DHCP 的 设计 基于 一 种 早期 协议 一 一 称 为 Internet 引导 程序 协议 (BOOTP) [RFC0951] 
[RFC1542]， 它 目前 已 过 时 。BOOTP 为 客户 提供 有 限 的 配置 信息 ， 并 且 没 有 提供 一 种 机 制 
来 支持 改变 已 提供 的 信息 。DHCP 使 用 租用 的 概念 来 扩展 BOOTP 模型 [GC89]， 并 且 可 提 
供 主机 操作 所 需 的 所 有 信息 。 租 用 允许 客户 机 使 用 一 个 商定 的 时 间 来 配置 信息 。 客 户 机 可 向 
DHCP 服务 器 请 求 续 订 租 约 ， 并 继续 操作 。 在 这 个 意义 上 ，BOOTP 和 DHCP 是 向 后 兼容 的 ， 
纯 BOOTP 客户 端 可 使 用 DHCP 服务 器 ，DHCP 客户 端 也 可 使 用 纯 BOOTP 服务 器 。 因 此 ， 
BOOTP 和 DHCP 同样 使 用 UDP/PP ( 见 第 10 章 )。 客 户 机 使 用 端口 68 ， 服 务 器 使 用 端口 67。 

DHCP 由 两 个 主要 部 分 组 成 : 地 址 管理 和 配置 数据 交付 。 地 址 管理 用 于 IP 地 址 的 动态 分 
配 ， 并 为 客户 机 提供 地 址 租用 。 配 置 数据 交付 包括 DHCP 协议 的 消息 格式 和 状态 机 。DHCP 
服务 器 可 配置 为 提供 三 种 地 址 分 配 : 自动 分 配 、 动 态 分 配 和 手动 分 配 。 三 者 之 间 的 差异 是 地 
址 分 配 是 否 基 于 客户 机 的 身份 ， 以 及 该 地 址 是 否 可 撤销 或 变更 。 最 常用 方法 是 动态 分 配 ， 客 
户 机 从 服务 器 配置 的 地 址 池 (通常 为 一 个 预定 义 的 范围 ) 中 获得 一 个 可 撤销 的 IP 地 址 。 自 动 
分 配 使 用 的 是 相同 方法 ,但 地 址 不 可 撤销 。 在 手动 分 配 中 ,DHCP 协议 用 于 传输 地 址 ， 但 地 址 
对 于 请 求 的 客户 机 是 不 变 的 ( 即 它 不 是 由 服务 器 维护 的 可 分 配 池 的 一 部 分 )。 在 最 后 一 种 模式 
中 ，DHCP 的 作用 如 同 BOOTP。 我 们 将 专注 于 动态 分 配 ， 它 是 最 有 趣 和 最 常见 的 情况 。 


6.2.1 地 址 池 和 租用 


在 动态 分 配 中 ，DHCP 客户 机 请 求 分 配 一 个 IP 地址 。 服 务 器 从 可 用 的 地 址 池 中 选择 一 
个 地 址 作为 响应 。 在 通常 情况 下 ， 这 个 池 是 专门 为 DHCP 用 途 而 分 配 的 一 个 连续 的 IP 地 址 
范围 。 分 配给 客户 机 的 地 址 只 在 一 段 特 定时 间 内 有 效 ， 这 段 时 间 称 为 租用 期 。 客 户 机 可 使 用 
这 个 地 址 直到 租用 期 到 期 ， 尽 管 它 能 提出 延长 租用 期 的 要 求 。 在 大 多 数 情况 下 ， 客 户 机 可 在 
希望 延长 租用 期 时 续 订 租约 。 

租用 期 是 DHCP 服务 器 的 一 个 重要 配置 参数 。 租 用 期 范围 可 从 几 分 钟 到 几 天 或 更 长 时 间 
( “无限 ”是 可 能 的 ， 但 不 推荐 这 样 做 ， 除 非 是 简单 的 网 络 )。 确 定 租用 期 的 最 佳 数值 需要 对 
预期 客户 数 、 地 址 池 大 小 和 地 址 稳定 性 等 因素 加 以 权衡 。 较 长 的 租用 期 通常 会 较 快 耗 尽 可 用 
的 地 址 池 ， 但 能 提供 更 稳定 的 地 址 和 减 小 网 络 开 销 (因为 续 租 请 求 较 少 )。 较 短 的 租用 期 可 
为 其 他 客户 提供 可 用 性 更 高 的 地 址 池 ， 随 之 而 来 的 是 稳定 性 减 小 和 网 络 流量 负荷 增 大 。 常 见 
的 默认 值 包括 12 ~ 24 小 时 ， 取 决 于 使 用 的 DHCP 服务 器 。 例 如， 微软 建议 较 小 的 网 络 采 用 
8 天 ， 较 大 的 网 络 采 用 16 ~ 24 天 。 客 户 机 在 租用 期 过 半 时 开始 尝试 续 订 租约 。 

当 发 送 DHCP 请 求 时 ， 客 户 机 需要 向 服务 器 提供 信息 。 这 些 信 息 可 包括 客户 机 名 称 、 请 
求 的 租用 期 、 已 使 用 或 最 后 使 用 过 的 地 址 副本 和 其 他 参数 。 当 服务 器 接收 到 这 个 请 求 时 ， 它 
可 利用 客户 机 提供 的 信息 (包括 MAC 地 址 请 求 )， 结 合 其 他 从 外 部 获得 的 信息 (例如 一 天 的 
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时 间 、 接 收 请 求 的 接口 )， 决 定 在 响应 中 提供 的 地 址 和 配置 信息 。 当 服务 器 向 客户 机 提供 租 
用 期 时 ， 服 务 器 将 租用 信息 保存 在 持久 性 存储 器 中 ， 通 常 是 非 易 失 性 内 存 或 磁盘 中 。 如 果 
DHCP 服务 器 重新 启动 并 且 运 行 良好 ， 租 约 将 保持 完好 。 


6.2.2 DHCP 和 BOOTP 消息 格式 


DHCP 扩展 了 BOOTP ( 它 是 DHCP MAT). DHCP 消息 格式 的 定义 采用 扩展 BOOTP 
的 方式 ， 以 保持 两 种 协议 之 间 的 兼容 性 ， 这 样 即使 在 没有 安装 DHCP 服务 器 的 网 络 中 ， 
BOOTP 客户 机 仍 可 使 用 DHCP 服务 器 和 了 BOOTP 中 继 代 理 ( 见 6.2.6 节 ) 支持 DHCP 服务 。 
消息 格式 包括 一 个 固定 长 度 的 初始 部 分 和 一 个 可 变 长 度 的 尾部 〈 见 图 6-1 )。 
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图 6-1 BOOTP 消 息 格 式 ， 包 括 来 自 [RFC0951]、[RFC1542] 和 [RFC2131] 的 字段 名 。BOOTP 消息 格 
式 采 用 适当 的 分 配方 案 保存 DHCP 消息 。 通 过 这 种 方式 ，BOOTP 中 继 代 理 可 处 理 DHCP 消息 ， 
BOOTP 客户 机 可 使 用 DHCP 服务 器 。 如 果 有 必要 ， 服 务 器 名 和 引导 文件 名 字段 可 携带 DACP 选项 


图 6-1 所 示 的 消息 格式 由 BOOTP 和 DHCP 定义 在 几 个 RFC ([RFC0951], [RFC1542] 和 
[RFC2131]) 中 。Op (操作 ) 字段 标识 消息 是 请 求 (1) 或 应 答 (2). HW 类 型 (htype) 字段 
的 分 配 基于 ARP ( 见 第 4 章 ) 使 用 的 值 ， 并 定义 在 相应 的 IANA ARP 参数 页 中 [IARP]， 最 常 
见 的 值 是 1 (以 太 网 )。HW KÈ (hlen) 字段 用 于 存放 硬件 (MAC) 地 址 ， 对 于 类 似 以 太 网 
的 网 络 ， 该 值 通常 为 6。 跳 步 字 段 用 于 保存 消息 传输 过 程 中 的 中 继 次 数 。 消 息 发 送 方 将 该 值 
设置 为 0， 并 在 每 次 中 继 时 递增 。 事 务 ID 是 由 客户 机 选择 的 一 个 (随机 ) 数 ， 服 务 器 需要 将 
它 复 制 到 响应 中 。 它 用 于 将 应 答 与 请 求 匹配 。 
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秒 数 ( Secs) 字段 由 客户 机 设置 ， 它 是 第 一 次 尝试 申请 或 重新 申请 地 址 经 过 的 秒 数 。 标 
志 字 段 当 前 只 包含 一 个 经 过 定义 的 位 ， 称 为 广播 标志 。 客 户 机 可 能 在 请 求 中 设置 该 位 ， 表 示 
它们 不 能 或 不 愿 处 理 单 播 他 数据 报 , 但 可 处理 广播 数据 报 (例如 ， 由 于 它们 没有 IP 地 址 )。 
通过 设置 该 位 通知 服务 器 和 中 继 代理 ， 广 播 地 址 可 用 于 响应 中 。 


注意 Æ Windows 环境 中 使 用 广播 标志 曾 遇 到 一 些 困 难 。Windows XP 和 Windows 7 
的 DHCP 客户 机 不 能 设置 该 标志 ， 但 Windows Vista 的 客户 机 可 设置 它 。 在 实际 使 
用 中 ， 有 些 DHCP 服务 器 不 能 正确 处 理 该 标志 ， 这 导致 在 支持 Vista 客户 机 时 出 现 
明显 的 困难 ， 即 使 Vista 实现 是 RFC 兼容 的 。 更 多 信息 见 [MKB928233]。 


接 下 来 的 四 个 字段 是 不 同 的 他 Hot, AP UIP 地 址 (ciaddr) 字段 包括 请 求 者 的 IP 地 
址 (如果 已 知 )， 和 否则 为 0。“ 你 的 ”IP 地 址 (yiaddr) 字段 由 服务 器 填写 ， 以 便 向 请 求 者 提供 


服务 器 地 址 。 下 一 服务 器 IP 地 址 (siaddr) 字段 给 出 下 一 个 服务 器 的 地 址 ， 它 用 于 客户 机 的 


引导 过 程 (例如 ， 如 果 客 户 机 需要 下 载 一 个 可 能 需要 由 DHCP 服务 器 之 外 的 另 一 台 服 务 器 完 
成 的 操作 系统 镜像 )。 网 关 (中 继 ) IP 地 址 ( giaddr) 字段 由 DHCP 或 BOOTP 中 继 器 填写 ， 
它们 在 转发 DHCP (BOOTP) 消息 时 返回 自己 的 地 址 。 客 户 机 硬件 地 址 (chaddr) 字段 保存 客 
户 机 的 唯一 标识 符 ， 并 可 由 服务 器 以 不 同方 式 来 使 用 ， 包 括 当 某 个 客户 机 每 次 发 送 地 址 请 求 
时 为 其 分 配 相 同 IP 地 址 。 这 个 字段 通常 保存 客户 机 的 MAC 地 址 ， 它 被 用 作 一 个 标识 符 。 目 
前 ， 客 户 机 标识 符 (6.2.3 节 和 6.2.4 节 中 描述 的 选项 ) 是 它 的 首选 。 

其 余 字 段 包括 服务 器 名 (sname) 和 引导 文件 名 (file) 字段 。 这 些 字段 并 不 是 每 次 都 需 
要 填写 ， 它 们 分 别 包含 64 字 节 或 128 字 节 ASCII 字符 ， 表 示 服 务 器 名 或 启动 文件 路 径 。 这 
些 字符 串 以 null 结尾 ， 如 同 在 C 编程 语言 中 那样 。 如 果 空 间 紧 张 ( 见 6.2.3 节 )， 它 们 可 用 于 
保存 DHCP 选项 。 最 后 一 个 字段 最 初 在 BOOTP 中 称 为 供应 商 扩 展 字 段 ， 其 长 度 固定 ， 现 在 
称 为 选项 字段 ， 但 是 长 度 可 变 。 正 如 我 们 将 要 看 到 的 ， 选 项 广泛 应 用 于 DHO 中 ， 以 区 分 
DHCP 消息 与 传统 BOOTP 消息 。 


6.2.3 DHCP 和 BOOTP 选项 


DHCP 是 对 BOOTP 的 扩展 ，DHCP 需要 的 有 些 字 段 BOOTP 设计 之 初 是 不 存在 的 ， 这 
些 字 段 可 通过 选项 来 携带 。 选 项 采用 标准 格式 ， 开 始 以 8 位 标签 表示 选项 类 型 。 对 于 有 些 选 
项 来 说 ， 跟 在 标签 后 面 的 固定 数量 的 字 节 包含 选项 值 。 标 签 构成 的 所 有 其 他 部 分 之 后 跟着 的 
1 字 节 包含 选项 值 长 度 〈 不 包括 标签 或 长 度 )， 紧 接着 是 包含 选项 值 自 身 的 可 变数 量 的 字 节 。 

大 量 选 项 对 于 DHCP 是 有 效 的 ， 其 中 一 些 选 项 也 被 BOOTP 支持 。 当 前 列表 由 BOOTP/ 
DHCP 参数 页 [IBDP] 提供 。 前 77 个 选项 包括 最 常见 的 选项 ， 它 们 由 [RFC2132] 定义 。 常 见 
选项 包括 填充 (0)、 子 网 掩 码 (1)、 路 由 器 地 址 (3 )、 域 名 服务 器 (6)、 域 名 (15 )、 请 求 
的 IP 地址 (50)、 地 址 租用 期 (51)、DHCP 消息 类 型 (53 )、 服 务 器 标识 符 (54 )、 参 数 请 求 
列表 (55), DHCP 错误 消息 (56 )、 租 约 更 新 时 间 ( 58 )、 租 约 重新 绑 定 时 间 (59 )、 客 户 机 
标识 符 ( 61 )、 域 搜索 列表 (119) 和 结束 (255). 

DHCP 消息 类 型 选项 (53) 是 1 字 节 长 的 选项 ，DHCP 消息 一 定 会 使 用 它 ， 它 有 以 下 这 些 
可 能 值 : DHCPDISCOVER( 1 )、DHCPOFFER(2 )、DHCPREQUEST(3 ), DHCPDECLINE ( 4 ), 
DHCPACK (5), DHCPNAK (6), DHCPRELEASE (7), DHCPINFORM (8 ), DHCPFORCE- 
RENEW (9 ) [RFC3203], DHCPLEASEQUERY (10), DHCPLEASEUNASSIGNED (11), 
DHCPLEASEUNKNOWN( 12 ) #1 DHCPLEASEACTIVE ( 13 )。 最 后 四 个 值 由 [RFC4388] 定义 。 
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选项 可 由 DHCP 消息 中 的 选项 字段 携带 ， 也 可 以 由 前 面 提 到 的 服务 器 名 和 引导 文件 名 字 
段 携带 。 当 选项 携带 在 后 两 个 位 置 时 ， 称 为 选项 超载 ， 将 包含 一 个 特殊 的 超载 选项 ( 52 ) 来 
表明 哪些 字段 适合 携带 选项 。 对 于 长 度 超过 255 字 节 的 选项 ，[RFC3396] 定义 了 一 种 特殊 的 
长 选项 机 制 。 实 际 上 ， 如 果 同 一 选项 在 同一 消息 中 重复 出 现 多 次 ， 它 们 的 内 容 按 出 现在 消息 
中 的 顺序 组 合 ， 并 将 结果 作为 一 个 选项 来 处 理 。 如 果 一 个 长 选项 用 于 表示 选项 超载 ， 这 时 的 
处 理 顺 序 是 从 后 向 前 : 选项 字段 、 引 寻 文 件 名 字段 和 服务 器 名 字段 。 

选项 通常 提供 相对 简单 的 配置 信息 ， 或 者 支持 一 些 其 他 协商 协议 。 例 如 ，[RFC2132] E 
义 了 大 多 数 传统 配置 信息 的 选项 ， 传 统 配 置信 息 指 的 是 TCP/IP 节点 所 需 的 信息 (地 址 信息 、 
服务 器 地 址 、 初 始 TTL 值 ， 以 及 布尔 值 指定 的 配置 信息 ， 例 如 启用 IP 转发 )。 下 列 规范 分 别 
描述 了 NetWare 简单 配置 信息 [RFC2241][RFC2242]、 用 户 类 [RFC3004]、FQDN[RFC4702]、 
Internet 存储 名 称 服务 器 (iSNS， 用 于 存储 网 络 ) [RFC4174]、 广 播 和 组 播 服务 控制 器 
(BCMCS， 用 于 3G 蜂 窜 网络) [RFC4280]、 时 区 [RFC4833]、 自 动 配置 [RFC2563]、 子 网 
选择 [RFC3011]、 域 名 服务 选择 ( 见 第 11 BE) [RFC2937] 以 及 网 络 接 入 认证 信息 承载 协议 
(PANA) 服务 器 ( 见 第 18 BE) [RFC5192]。 这 些 选项 用 于 支持 后 面 ( 6.2.7 节 开 始 介绍 ) 描述 
的 其 他 协议 和 功能 。 


6.2.4 DHCP 协议 操作 


DHCP 消息 是 带 有 一 组 特殊 选项 的 BOOTP 消息 。 当 一 台新 的 客户 机 连接 到 网 络 时 ， 它 
首先 发 现 可 用 的 DHCP 服务 器 ， 以 及 它们 能 够 提供 的 地 址 。 然 后 ， 它 决定 使 用 哪 台 服 务 器 和 
哪个 地 址 ， 并 向 提供 该 地 址 的 服务 器 发 送 请 求 (同时 将 其 选择 通知 所 有 服务 器 )。 除 非 服 务 
器 在 此 期 间 已 将 该 地 址 分 配 出 去 ， 否 则 它 通 过 确认 将 地 址 分 配给 请 求 的 客户 机 。 图 6-2 描述 
了 典型 的 客户 机 和 服务 器 之 间 事 件 的 时 间 序 列 。 


客户 机 选择 的 服务 器 


客户 机 开始 
可 能 使 用 零 IP 源 地 址 
















| DISCOVE 
(null ciaddr/broadcast; È 决定 配置 


xid, params request) 


OFFER ( 其 他 服务 器 可 能 发 送 OFFER ) 
> xid, yiaddr, options) 
收集 响应 (broadcasts siaddr, 
选择 服务 器 /配置 i 
(broadcast: siaddr ci. A a i 
> Claddr, xid, options) 选择 的 服务 器 确认 配 y 
( 其 他 服务 器 不 需要 ) 


ACK aie 
i tions: 
RE {broadcasts xid, yiaddr, op 


验证 


(推荐 ) 检测 冲突 


(例如 ARP/ACD ) 


图 6-2 一 次 典型 的 DHCP 交换 。 客 户 机 通过 广播 消息 发 现 一 组 服务 器 和 可 提供 的 地 址 ， 它 请 求 自 己 想 
获得 的 地 址 ， 并 接收 到 选 定 服务 器 的 确认 。 交 易 ID ( xid) 用 于 将 请 求 和 响应 匹配 ， 服 务 器 ID 
(一 个 选项 ) 指出 哪 台 服 务 器 提供 地 址 ， 并 承诺 将 它 与 客户 机 绑 定 。 如 果 客 户 机 知道 它 想 获得 的 
地 址 ， 该 协议 可 简化 为 仅 使 用 REQUEST 和 ACK 消息 
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发 送 请 求 的 客户 机 将 BOOTP 的 Op 字段 设置 为 BOOTREQUEST， 并 将 选项 字段 的 前 4 
字 节 分 别 设置 为 十 进 制 值 99、130、83 和 99 (SEA [RFC2132] 的 魔术 cookie 值 )。 客 户 机 向 
服务 器 发 送 消息 ， 使 用 UDP/PP 数据 报 ， 其 中 包含 一 个 BOOTP 的 BOOTREQUEST 操作 和 
相应 的 DHCP 消息 类 型 (通常 为 DHCPDISCOVER 或 DHCPREQUEST)。 这 种 消息 从 地 址 
0.0.0.0 (端口 68 ) 发 送 到 受 限 广播 地 址 255.255.255.255 (端口 67 )。 其 他 方向 (从 服务 器 到 
客户 机 ) 的 消息 从 服务 器 IP 地 址 和 端口 67 发 送 到 本 地 IP 广播 地 址 和 端口 68 (有 关 UDP 的 
详细 信息 见 第 10 章 )。 

在 一 次 典型 的 DHCP 交换 中 ， 客 户 机 首先 广播 一 个 DHCPDISCOVER 消息 。 对 于 接收 
到 请 求 的 每 台 服务 器 ， 无 论 是 直接 接收 还 是 通过 中 继 代理 ， 它 们 都 会 响应 一 个 DHCPOFFER 
消息 ， 并 在 “你 的 ”IP 地 址 字段 中 包含 提供 的 IP 地 址 。 其 他 配置 选项 (例如 DNS 服务 器 的 
IP 地 址 、 子 网 掩 码 ) 也 经 常 包括 在 内 。DHCPOFFER 消息 中 包含 租用 时 间 (T)， 它 提供 了 在 
不 更 新 租约 的 情况 下 地 址 可 被 租用 的 时 间 上 限 。 这 个 消息 还 包含 更 新 时 间 (T1 )， 它 是 客户 
机 从 获得 租约 到 尝试 要 求 服务 器 更 新 租约 的 时 间 ， 以 及 重新 绑 定时 间 (T2 )， 它 是 客户 机 学 
试 要 求 DHCP 服务 器 更 新 其 地 址 的 时 间 。 在 默认 情况 下 ，T1 =(T/2 )，T2 =(7T/8 ) 。 

当 接 收 到 来 自 一 台 或 多 台 服 务 器 的 DHCPOFFER 消息 后 ， 客 户 机 确定 自己 想 接受 
哪个 DHCPOFFER， 并 广播 一 个 包 插 服务 器 标识 符 选 项 的 DHCPREQUEST 消息 。 请 求 
的 IP 地 址 选项 设置 为 由 选中 的 DHCPOFFER 消息 提供 的 地 址 。 多 台 服 务 器 可 能 接收 到 
广播 的 DHCPREQUEST 消息 ， 但 只 有 DHCPREQUEST 消息 中 标识 的 服务 器 同意 将 该 
地 址 进行 绑 定 ; 其 他 服务 器 清除 与 该 请 求 相 关 的 状态 。 在 完成 绑 定 后 ， 选 中 的 服务 器 响 
应 一 个 DHCPACK 消息 ， 通 知客 户 机 现在 可 使 用 该 地 址 。 如 果 服 务 器 无 法 分 配 包含 在 
DHCPREQUEST 消息 中 的 地 址 (例如 ， 已 通过 其 他 方式 分 配 或 无 法 使 用 )， 该 服务 器 将 会 响 
应 一 个 DHCPNAK 消息 。 

当 客 户 机 接收 DHCPACK 消息 和 其 他 相关 的 配置 信息 时 ， 它 可 探测 网 络 以 确保 获得 的 
地 址 未 被 使 用 (例如 ， 向 该 地 址 发 送 一 个 ARP 请 求 以 执行 ACD ， 详 见 第 4 章 )。 如 果 客 户 机 
确定 该 地 址 已 被 使 用 ， 客 户 机 就 不 使 用 该 地 址 ， 并 向 服务 器 发 送 一 个 DHCPDECLINE 消息 ， 
通知 该 地 址 不 能 使 用 。 在 经 过 默认 的 10 秒 延 时 后 ， 客 户 机 可 重 试 。 如 果 一 台 客 户 机 在 租约 
到 期 前 放弃 该 地 址 ， 它 将 发 送 一 个 DHCPRELEASE 消息 。 

在 客户 机 已 有 一 个 IP 地址 并 希望 仅 更 新 其 租约 的 情况 下 ， 它 可 跳 过 最 初 的 DHCPD- 
ISCOVER/DHCPOFFER 消息 。 取 而 代 之 的 是 ， 客 户 机 通过 一 个 DHCPREQUEST 消息 请 求 
当前 正在 使 用 的 地 址 。 此 后 ， 协 议 工 作 流 程 如 前 面 所 述 : 服务 器 可 能 同意 该 请 求 (通过 一 
个 DHCPACK)， 也 可 能 拒绝 该 请 求 (通过 一 个 DHCPNAK )。 另 一 种 情况 ， 当 客户 机 已 有 
一 个 地 址 时 ， 它 不 需要 更 新 该 地 址 ， 但 需要 其 他 ( 非 地 址 的 ) 配置 信息 。 在 这 种 情况 下 ， 它 
可 使 用 DHCPINFORM 消息 来 代替 DHCPREQUEST 消息 ， 以 表明 它 使 用 现 有 地 址 ， 但 希 
望 获得 额外 的 信息 。 这 种 消息 导致 服务 器 返回 一 个 DHCPACK 消息 ， 其 中 包括 请 求 的 额外 
信息 。 


6.2.4.1 ”例子 

为 了 观察 DHCP 的 行为 ， 我 们 查看 一 台 运行 微软 Vista 的 笔记 本 电脑 连接 到 一 个 无 线 局 
域 网 时 交换 的 数据 包 ， 该 网 络 由 一 台 基 于 Linux 的 DHCP 服务 器 (与 Windows 7 系统 几乎 相 
同 ) 支持 。 客 户 机 最 近 使 用 不 同 的 IP 前 绥 来 访问 不 同 的 无 线 网 络 ， 它 现在 正 连接 在 新 的 网 络 
中 。 由 于 客户 机 会 记 住 在 之 前 网 络 中 的 地 址 ， 它 首先 尝试 通过 一 个 DHCPREQUEST 消息 继 
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续 使 用 该 地 址 ( 见 图 6-3 )。 


注意 现在 有 一 个 检测 网 络 附 件 (DNA) 的 协商 过 程 ， 分 别针 对 IPv4[RFC4436] 和 
IPV6[RFC6059] 加 以 规范 。 这 些 规范 不 包含 新 的 协议 ， 而 是 建议 将 单 播 ARP (针对 
IPv4 ) 和 单 播 或 多 播 邻 居 请 求 / 路 由 器 发 现 消 息 (针对 IPv6， 见 第 8 章 ) 相 组 合 ， 
它们 可 在 一 台 主 机 切换 网 络 链接 时 减少 获取 配置 信息 的 延迟 。 由 于 这 些 规范 相对 较 
新 (特别 是 针对 IPv6 )， 因 此 并 非 所 有 系统 都 实现 了 它们 。 


vista-dhcp.tr - Wireshark 


Message type: Boot Request (1) 

Hardware type: Ethernet 

Hardware address length: 6 

Hops: 0 

Transaction ID: Oxdb23147d 

Seconds elapsed: 0 
@ Bootp flags: Ox8000 (Broadcast) 

Client IP address: 0.0.0.0 (0.0. 

Your (client) IP address: 0.0.0. 

Next server IP address: 0.0.0.0 

Relay agent IP address: 0.0.0.0 

Client MAC address: 00:13:02:20: 

Client hardware address padding: Oe Beat erick 

server host name not given 

Boot file name not given 

Magic cookie: DHCP 
Œ Option: (t=53,1=1) DHCP Message Type = DHCP Request 
@ Option: (t=61, 17) Client eee 
@ Option: (t=50,1=4) Requested IP Address = 172.16.1.34 
@ Option: (t=12,1=5) Host Name = “vista” 
@ Option: (t=81,17=8) Client Fully Qualified Domain Name 
@ Option: (t=60,1=8) vendor class identifier = “MSFT 5.0” 
@ Option: (t=55,1=12) Parameter Request List 

End option 





图 6-3 ”一 台 客 户 机 已 切换 网 络 ， 但 它 尝试 通过 DHCPREQUEST 消息 向 新 网 络 中 的 
DHCP 服务 器 请 求 自 己 的 旧地 址 172.16.1.34 


在 图 6-3 中 ,我 们 可 看 到 用 链 路 层 广 播 帧 发 送 的 DHCP WR (目的 地 为 ff:ff:ff:ff:ff:ff)， 
它 使 用 未 指定 的 源 IP 地 址 0.0.0.0 和 受 限 的 广播 目的 地 址 255.255.255.255。 由 于 客户 机 不 知 
道 请 求 的 地 址 是 否 成 功 分 配 ， 也 不 知道 它 连 接 的 网 络 所 使 用 的 网 络 前 级 ， 它 将 不 得 不 使 用 这 
些 地 址 。 这 个 消息 是 由 BOOTP 客户 机 的 端口 68 (bootpc) 向 服务 器 的 端口 67 ( bootps) FI 
的 UDP/IP 数据 报 。 当 DHCP 作为 BOOTP 的 一 部 分 时 ,使 用 的 协议 是 引导 程序 协议 ， 消 息 
类 型 是 BOOTREQUEST ( 1 )， 硬 件 类 型 设置 为 1 (以 太 网 )， 地 址 长 度 为 6 字 节 。 事 务 ID 为 
0xdb23147d4， 它 是 由 客户 机 选择 的 一 个 随机 数 。 这 个 消息 中 设置 了 BOOTP 广播 标志 ， 意 味 
着 该 消息 的 响应 通过 广播 地 址 发 送 。 请 求 的 地 址 172.16.1.34 包含 在 几 个 选项 之 一 中 。 我 们 
将 在 6.2.9 节 详细 介绍 DHCP 消息 中 出 现 的 选项 类 型 。 

附近 的 DHCP 服务 器 会 接收 到 客户 机 的 DHCPREQUEST 消息 ， 其 中 包括 请 求 的 IP 地 
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hE 172.16.1.34。 但 是 ， 服 务 器 无 法 分 配 这 个 地 址 ， 这 是 由 于 172.16.1.34 不 在 当前 网 络 中 。 
因此 ， 服 务 器 将 会 发 送 一 个 DHCPNAK 消息 ， 拒 绝 客户 机 的 请 求 ( 见 图 6-4). 


vista-dhcp.tr - W 


strap Protocol 
Message type: Boot Reply 


Hardware type: Ethernet 
Hardware address length: 6 
Hops: 0 
Transaction ID: Qxdb23147d 
Seconds elapsed: 0 
Bootp flags: Ox8000 (Broadcast) 
Client IP address: 0.0.0.0 (0.0. 
Your (client) IP address: 0.0. 
Next server IP address: 0.0.0. 
Relay agent IP address: 0.0.0.0 ) 
Client MAC address: 00:13:02:20:b9:18 (00:13:02:20:b9:18) 
Client hardware address padding: o0000000000000000000 
Server hast name not given 
Boot file name not given 
Magic cookie: DHCP. 
| Option: \(t=53, 91) OCR’ Massage Type’ = DHCP) NAK | 7 ee 
@ Option: (t=54,1=4) DHCP Server pera rm = 10.0.0.1 
w Option: (t=56,1=13) Message = “wrong address" 
End option 
Padding 





图 6-4 DHCP 服务 器 发 送 一 个 DHCPNAK 消息 ， 表 示 客 户 机 不 应 尝试 使 用 
IP 地 址 172.16.1.34。 事 务 ID 使 客户 机 知道 该 消息 对 应 的 地 址 请 求 


图 6-4 所 示 的 DHCPNAK 消息 是 服务 器 发 送 的 一 个 广播 BOOTP 响 应 。 它 包括 
DHCPNAK 消息 类 型 、 与 客户 机 请 求 匹 配 的 事务 ID、 包 含 10.0.0.1 的 服务 器 标识 符 选 
项 、 客 户 机 标识 符 (在 这 种 情况 下 是 MAC 地 址 ) 的 副本 ,以 及 一 个 表示 错误 类 型 的 文 
本 字符 串 “ wrong address”。 此 后 ， 客 户 机 不 再 使 用 旧地 址 172.16.1.34， 而 是 通过 一 个 
DHCPDISCOVER 消息 ( 见 图 6-5) 重新 寻找 它 能 找到 的 服务 器 和 地 址 。 

客户 机 发 送 的 DHCPDISCOVER 消息 如 图 6-5 所 示 ， 它 与 DHCPREQUEST 消息 相似 ， 
包括 之 前 使 用 的 已 请 求 的 IP 地 址 ( 它 没有 任何 其 他 要 请 求 的 地 址 ), 但 包含 了 更 丰富 的 选项 
和 一 个 新 的 事务 ID ( 0x3a681b0b)。 除 了 客户 机 MAC 地 址 出 现在 客户 机 硬件 地 址 ( chaddr) 
字段 中 ， 大 多 数 主要 的 BOOTP 字段 保留 空 并 设置 为 0。 注 意 ， 这 个 地 址 如 预期 那样 与 以 太 
网 帧 的 源 MAC 地 址 匹配 ， 这 是 由 于 分 组 并 不 通过 BOOTP 中 继 代理 来 转发 。DISCOVER 消 
息 的 其 他 部 分 包含 8 个 选项 ， 其 中 大 部 分 在 图 6-6 的 屏幕 截图 中 展开 了 ， 因 此 我 们 可 看 到 多 


个 选项 的 子 类 型 。 


图 6-6 给 出 了 BOOTP 请 求 消息 中 包含 的 选项 。 第 一 个 选项 表示 该 消息 是 一 
DHCPDISCOVER 消息 。 第 二 个 选项 表示 客户 机 是 否 采用 地 址 自动 配置 [RFC2563] (I 
节 )。 如 果 不 能 通过 DHCP 获取 地 址 ， 则 允许 它 自 己 决定 是 否 作 为 DHCP 服务 器 使 用 。 
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vista-dhcp,tr - Wireshark 


Message type: Boot Request 
Hardware type: Ethernet 
Hardware address length: 6 
Hops: 0 
Transaction ID: 0x3a681b0b 
Seconds elapsed: 0 
Bootp flags: Ox8000 (Broadcast) 
Client IP address: 0.0.0.0 (0. 
Your (client) IP address: 0.0.0. 
Next server IP address: 0.0.0.0 
Relay agent IP address: 0.0.0.0 > 
Client MAC address: 00:13:02:20:b9:18 0:13:02:20:b9:18) 
Client hardware address padding: 00000000000000000000 
Server host name not given 
Boot file name not given 
Magic cookie: DHCP 

a option: Ct=53,1=1) DHCP Message Type = DHCP Discover 

@ Option: (t=116,1=1) DHCP auto-configuration = Autoconf igure 

@ Option: (t=61,1=7) Client identifier 

@ Option: (t=50,1=4) Requested IP Address = 172.16.1.34 

@ Option: (t=12,1=5) Host Name = “vista” 

æ Option: (t=60,1=8) vendor class identifier = "MSFT 5.0" 

@ Option: (t=55,1=12) Parameter Request List 
End option 

Padding 





图 6-5 DHCPDISCOVER 消息 表明 在 之 前 的 DHCPREQUEST 
消息 失败 后 ， 客 户 机 正在 重新 尝试 获得 一 个 地 址 





vista-dhcp.tr - Wireshark 


@ Option: (t=116,1=1) DHCP Auto-Configuration = Autoconfigure 
@ Option: (t=61,1=7) Client identifier 
@ Option: (t=50,1=4) Requested IP Address = 172.16.1.34 
@ Option: (t=12,1=5) Host Name = "vista" 
@ Option: (t=60,1=8) vendor class identifier = "MSFT 5,0” 
Option: (t=55,1=12) Parameter Request List 
Option: (55) Parameter Request List 
Length: 12 
value: 010f03062c2e2f1f2179f92b 
1 = Subnet Mask 
15 = Domain name 
3 = Router 
6 = Domain Name Server 
44 = NetBIOS over TCP/IP Name Server 
46 = NetBIOS over TCP/IP Node Type 
47 = NetBIOS over TCP/IP Scope 
31 = Perform Router Discover 
33 = Static Route 
121 = Classless Static Route 
249 = Private/Classless Static Route (Microsoft) 
43 = Vendor-Specific Information 
End option 
Padding 








图 6-6 DHCPDISCOVER 消息 可 能 包含 丰富 的 参数 请 求 ， 说 明 客 户 机 需要 哪些 配置 信息 
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下 一 个 选项 表示 客户 机 标识 符 (ID) 选项 设置 为 0100130220B918 (未 显示 )。DHCP 服 
务 器 可 使 用 客户 机 ID ， 以 确定 是 否 有 特殊 配置 信息 给 特定 的 客户 机 。 目 前 ， 大 多 数 操作 系 
统 允许 用 户 在 获得 一 个 地 址 时 指定 DHCP 客户 机 使 用 的 客户 机 ID。 但 是 ， 人 允许 自动 选择 客 
户 机 ID 通常 更 便利 ， 这 是 由 于 多 个 客户 机 使 用 相同 客户 机 ID 会 导致 DHCP 问题 。 自 动 选择 
的 客户 机 ID 通常 基于 客户 机 MAC 地 址 。 在 Windows 中 ， 它 是 在 MAC 地 址 前 面 添加 一 个 1 
字 节 的 硬件 类 型 标识 符 (在 这 种 情况 下 ， 该 字 节 的 值 为 1， 表 示 以 太 网 )。 


注意 这 里 出 现 使 用 客户 机 标识 符 的 举动 ， 该 标识 符 并 非 基于 MAC 地 址 。 这 
样 做 的 目的 是 希望 一 台 客 户 机 拥有 一 个 持久 的 标识 符 ， 它 使 用 不 变 的 Pv 或 
IPV6 地 址 ， 即 使 系统 中 的 网 络 接 口 硬 件 改变 (通常 会 导致 其 MAC 地 址 改变 )。 
[RFC4361] 指定 了 用 于 IPv4 节 点 的 标识 符 ， 它 使 用 一 种 最 初 为 JPv6 定 义 的 方 
案 。 它 涉及 使 用 DHCP 唯一 标识 符 ( DUID) 和 身份 关联 标识 符 (IAID)， 它 们 是 为 
DHCPv6[RFC3315]( 见 6.2.5.3 $ fe 6.2.5.4 节 ) 定义 的 ， 但 可 用 于 传统 DHCPvV4 F, 
它 不 支持 在 DHCP 消息 中 使 用 客户 机 硬件 地 址 (chaddr) 字段 。 但 是 ， 这 种 方案 还 
没有 被 广泛 应 用 。 


下 一 个 (请 求 的 JP 地址) 选项 表示 客户 机 请 求 的 IP 地 址 为 172.16.1.34。 这 是 它 在 以 前 
的 无 线 网 络 中 使 用 的 IP 地 址 。 正 如 前 面 所 述 ， 这 个 地 址 在 新 的 网 络 中 无 法 使 用 ， 这 是 由 于 
它 使 用 了 不 同 的 网 络 前 级 。 

其 他 选项 指出 了 配置 主机 名 “vista"”、 供 应 商 类 别 ID“MSFT 5.0”( 由 Microsoft 
Windows 2000 及 更 高 版 本 系统 使 用 ) 和 一 个 参数 请 求 列表 。 参 数 请 求 列 表 选 项 为 DHCP 服 
务 器 提供 客户 机 请 求 的 配置 信息 。 它 包含 一 个 由 多 个 字 节 组 成 的 字符 串 ， 每 个 字 节 表示 一 个 
特定 的 选项 号 。 我 们 可 以 看 到 ， 它 包含 传统 Internet 信息 (FM. MY. DNS 服务 器 、 
默认 的 路 由 器 )， 而 且 还 包含 一 些 其 他 选项 ， 常 见 的 是 针对 Microsoft 系统 (EI NetBIOS) 的 
选项 。 它 还 包含 一 个 标识 ， 表 明 客 户 机 有 兴趣 知道 是 否 执行 ICMP 路 由 器 发 现 ( 见 第 8 章 )， 
以 及 是 否 在 启动 时 将 静态 转发 表 项 添加 在 客户 机 的 转发 表 中 ( 见 第 5 章 )。 


注意 ”存在 三 种 静态 路 由 参数 是 地 址 发 展 过 程 造 成 的 。 在 全 面 采用 子 网 掩 码 和 网 络 
前 组 之 前 ， 一 个 地 址 的 网 络 部 分 是 需要 单独 检测 的 地 址 (“分 类 地 址 ”)， 这 是 与 静 
态 路 由 (33 ) 参数 共同 使 用 的 路 由 形式 。 随 着 无 类 路 由 的 使 用 ，DHCP 更 新 以 保持 
掩 码 可 用 ， 这 导致 了 [RFC3442] 定义 的 无 分 类 静态 路 由 (CSR) FH (121) 的 出 
现 。 微 软 的 改进 方案 (使 用 代码 249 ) 与 之 相似 。 


最 后 一 个 参数 ( 43 ) 是 针对 特定 供应 商 的 信息 。 它 通常 与 供应 商 类 别 标识 符 选 项 ( 60 ) 
共同 使 用 ， 以 便 允 许 客户 机 接收 非 标准 的 信息 。 其 他 方案 结合 供应 商 身 份 与 特定 供应 商 信 
息 [RFC3925]， 提 供 一 种 由 供应 商 提供 特定 信息 的 方法 (即使 具有 一 台 客 户 机 )。 在 采用 
Microsoft 系统 的 情况 下 ， 特 定 供应 商 信息 用 于 选择 使 用 的 NetBIOS， 指 出 一 个 DHCP 租约 
是 否 在 关机 时 释放 ， 以 及 如 何 衡量 一 条 默认 路 由 在 转发 表 中 的 处 理 。 它 也 可 用 于 Microsoft 
网 络 访问 保护 (NAP) 系统 [MS-DHCPN]。Mac OS 系统 使 用 供应 商 特定 信息 支持 苹果 


NetBoot 服务 和 引导 服务 器 发 现 协议 (BSDP) [F07]。 


在 接收 一 个 DHCPDISCOVER 消息 后 ，DHCP 服务 器 会 响应 一 个 IP 地 址 、 租 约 和 其 他 
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配置 信息 的 确认 ， 它 们 包含 在 一 个 DHCPOFFER 消息 中 。 在 图 6-7 所 示 的 例子 中 只 有 一 台 
DHCP 服务 器 〈 它 也 是 路 由 器 和 DNS 服务 器 )。 


vista-dhcp.tr - Wireshark 





PE Spas OS ie 


SS EB! 
Message type: Boot Reply (2) 
Hardware type: Ethernet 
Hardware address length: 6 
Hops: 0 
Transaction Ip: 0x3a681b0b 
Seconds elapsed: 0 
Bootp flags: Ox8000 (Broadcast) 
Client IP address; 0.0.0.0 (0.0.0.0) 
Your (clfent) Ip address: 10.0.0.57 (10.0.0.57) 
Next server IP address: 10,0.0.1 (10.0,0.1) 
Relay agent IP address: 0.0.0.0 (0.0.0.0) 
Client MAC address: 00:13:02:20:b9:18 (00:13:02:20:b9:18) 
Client hardware address padding: 00000000000000000000 
Server host name not given 
Boot file name not given 
Magic cookie: DHCP 
option: Ranches (DHCP Message Type = OHCP‘Offer Se SY Mr 
Option: (t=54,1=4) DHCP Server Identifier = 10.0.0.1 
Œ Option: oe 51,1=4) IP Address Lease Time = 12 hours 
® Option: (t=58,1=4) Renewal Time value = 6 hours 
@ Option: (t=59,1=4) Rebinding Time value = 10 hours, 30 minutes 
f Option: (t=1,1=4) Subnet Mask = 255.255.255.128 
@ Option: (t=28,1=4) Broadcast Address = 10.0.0.127 
Œ Option: (t=3,1=4) Router = 10.0.0.1 
w Option: (t=6,1=4) Domain Name Server = 10.0.0.1 
Option: (t=15,1=4) Domain Name = “home” 
End Option 
Padding 





图 6-7 10.0.0.1 的 DHCP 服务 器 发 送 的 DHCPOFFER 提供 有 效 期 长 达 12 小 时 的 IP 地 址 10.0.0.57, $ 
他 信息 包括 DNS 服务 器 地 址 、 域 名、 默认 路 由 器 的 IP 地 址 、 子 网 掩 码 和 广播 地 址 。 在 这 个 例 
子 中 ， 该 系统 是 卫 地 址 为 10.0.0.1 的 默认 路 由 器 、DHCP 服务 器 和 DNS 服务 器 


在 图 6-7 所 示 的 DHCPOFFER 消息 中 ， 我 们 再 次 看 到 消息 格式 中 包含 BOOTP 部 分 ， 以 
一 组 涉及 DHCP 地 址 处 理 的 选项 。BOOTP 消息 类 型 是 BOOTREPLY。 由 服务 器 提供 的 客 
P PLIP 地 址 为 10.0.0.57， 它 位 于 “你 的 ” [客户 机 ] IP 地 址 字段 中 。 注 意 ， 该 地 址 不 匹配 
DHCPDISCOVER 消息 中 包含 的 请 求 值 172.16.1.34， 这 是 由 于 172.16/12 前 级 不 能 用 于 该 本 
地 网 络 中 。 
包含 在 这 组 选项 中 的 其 他 信息 包括 服务 器 的 IP 地 址 (10.0.0.1 )、 提 供 的 IP 地 址 的 租用 
期 (12 小 时 )、T1 (更 新 ) 和 T2 (重新 绑 定 ) 的 超时 时 间 (分 别 为 6h 和 10.5h)。 另 外 ， 服 务 
器 向 客户 机 提供 了 子 网 掩 码 ( 255.255.255.128 )、 正 确 的 广播 地 址 ( 10.0.0.127 )、 默 认 路 由 
器 和 DNS 服务 器 ( 均 为 10.0.0.1， 与 DHCP 服务 器 一 样 ) 和 默认 域名 “ home”。 该 域名 在 格 
式 上 不 是 标准 的 ， 并 且 不 能 用 于 专用 网 络 之 外 。 这 个 例子 是 一 个 家 庭 网 络 ， 采 用 作者 常用 的 
<name>.home 格式 的 机 器 名 。 当 客户 机 接收 到 一 个 DHCPOFFER 消息 ， 并 决定 租用 服务 器 
提供 的 IP 地 址 10.0.0.57， 它 会 发 送 第 二 个 DHCPREQUEST 消息 ( 见 图 6-8 )。 
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Message type: Boot Request (1) 

Hardware type: Ethernet 

Hardware address length: 6 

Hops: 0- 

Transaction ID: 0x3a681b0b 

Seconds elapsed: 0 

Bootp flags: Ox8000 popes ea 

Client IP address: 0.0.0.0 (0.0. 

Your (client) IP address: 0.0.0. 

Next server IP address: 0.0.0.0 

Relay agent IP address: 0.0.0.0 

Client Mac address: 00:13:02:20:b9:18 (00:13 :02:20:b9:18) 
Client hardware address padding: 90000000000000000000 
Server host name not given 

Boot file name not given 

Magic Gesa DHCP 

option: (tess, 


: (t= 50, 1=4) Requested IP address = 10.0.0.57 
@ Option: (t=54,1=4) DHCP Server Identifier = 10.0.0.1 
@ Option: (t=12,1=5) Host Name = "vista 
@ Option: (t=81,1=8) Client Fully qualified Domain Name 
@ Option: (t=60,1=8) vendor class identifier = “MSFT 5.0" 
f@ Option: (t=55,1=12) Parameter Request List 
End Option 





图 6-8 第 二 个 DHCPREQUEST 表示 客户 机 希望 使 用 IP 地址 10.0.0.57。 该 消息 通过 广播 地 址 来 发 送 ， 
并 在 服务 器 标识 符 选 项 中 包含 地 址 10.0.0.1。 这 样 任何 其 他 服务 器 都 可 以 接收 广播 ， 并且 知道 
客户 机 选择 的 DHCP 服务 器 和 地 址 


图 6-8 所 示 的 第 二 个 DHCPREQUEST 消息 与 DHCPDISCOVER 消息 类 似 ， 除 了 请 求 的 
IP 地 址 现在 设置 为 10.0.0.57，DHCP 消息 类 型 设置 为 DHCPREQUEST，DHCP 自动 配置 选项 
不 存在 ,服务器 标识 符 选 项 现在 已 填充 了 服务 器 地 址 ( 10.0.0.1 )。 注 意 , 与 DHCPDISCOVER 
消息 相似 ， 这 个 消息 采用 广播 方式 发 送 ， 因 此 本 地 网 络 中 的 任何 服务 器 或 客户 机 都 能 接收 
它 。 服 务 器 标识 符 选 项 字段 用 于 避免 未 选中 的 服务 器 提交 地 址 绑 定 。 当 选中 的 服务 器 接收 到 
DHCPREQUEST 并 同意 绑 定 ， 它 通常 使 用 一 个 DHCPACK 消息 来 响应 ， 如 图 6-9 所 示 。 

图 6-9 所 示 的 DHCPACK 消息 与 前 面 的 DHCPOFFER 消息 非常 相似 。 但 是 ， 客 户 机 的 
FQDN 选项 现在 包括 在 内 。 在 这 种 情况 下 (未 显示 )， 它 被 设置 为 vista.home。 此 后 ， 客 户 机 
免费 使 用 地 址 10.0.0.57， 直 到 DHCP 服务 器 失效 为 止 。 目 前 ， 建 议 使 用 ACD (在 第 4 章 中 
描述 ) 技术 ， 以 确保 地 址 不 被 其 他 主机 使 用 。 

当 一 个 系统 启动 或 连接 到 一 个 新 的 网 络 时 ， 这 个 例子 中 交换 的 DHCP 消息 是 典型 的 。 它 
也 可 能 导致 一 个 系统 手工 释放 或 获得 DHCP 配置 消息 。 例 如 ， 在 Windows 中 ， 以 下 命令 将 
释放 使 用 DHCP 获得 的 数据 : 


C:\> ipconfig /release 
下 面 的 命令 将 获得 数据 : 


C:\> ipconfig /renew 
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Message type: 
Hardware type: Ethernet 
Hardware address length: 6 
Hops: 0 
Transaction ID: 0x3a681b0b 
Seconds elapsed: 0 
Bootp flags: 0x8000 (Broadcast) 
Client IP address: 0.0.0.0 (0.0.0.0) 
Your (client) IP address: 10.0.0.57 (10.0.0.57) 
Next server IP address: 10.0.0.1 (10.0.0.1) 
Relay agent IP address: 0.0.0.0 (0.0.0.0) 
Client Mac address: 00:13:02:20:b9:18 (00:13:02:20:b9:18) 
Client hardware address padding: 00000000000000000000 
Server host name not given 
Boot file name not given 
Magic cookie: DHCP 
Option: (te53,1=1) DHCP Message Type = DHCP ACK 
Option: (t=54,1=4) DHCP server Identifier = 10.0. 0. a 
@ Option: (t=51,1=4) IP Address Lease Time = 12 hours 
® Option: (t=58,1=4) Renewal Time value = 6 hours 
@ Option: (t=59,1=4) Rebinding Time value = 10 hours, 30 minutes 
@ Option: Ct=1,1=4) subnet mask = 255.255.255.128 
w Option: (t=28,1=4) Broadcast Address = 10.0.0.127 
@ Option: (t=3,1=4) Router = 10.0.0,.1 
Option: (t=6,1=4) Domain Name Server = 10.0.0.1 
@ option: (t=15,1=4) Domain Name = “home” 
@ Option: (t=81,1=13) Client Fully qualified Domain Name 
End option 





Al 6-9 DHCPACK 消息 为 客户 机 (和 其 他 服务 器 ) 分 配 地 址 10.0.0.57， 其 有 效 期 长 达 12 小 时 
在 Linux 中 ， 以 下 命令 可 获得 同样 结果 : 


Linux# dhclient -r 
用 于 释放 一 个 租约 ， 以 及 

Linux# dhclient 
用 于 更 新 一 个 租约 。 

通过 DHCP 获得 并 分 配给 本 地 系统 的 信息 类 型 ， 可 在 Windows 中 通过 一 个 ipconfig tit 
令 的 选项 来 查看 。 下 面 是 来 自 该 命令 的 一 段 输 出 : 


C:\> ipconfig /all 


Wireless LAN adapter Wireless Network Connection: 


Connection-specific DNS Suffix . : home 
Description .... .. + » « « » $ Intel(R) PRO/Wireless 3945ABG 
Network Connection 


Physical Address. . ... +. + « + : 00-13-02-20-B9-18 
DHCP Enabled. . . . o «© « « « « 6 $ Yes 
Autoconfiguration Enabled . . . . : Yes 

IPV4 Address. . . > e e + + + e > : 10.0.0.57(Preferred) 
Stbnet MaSK Ss 5 a è% eios s s è $ '2553255.295;128 


Lease Obtained. . . s s. e s ee Sunday, December 21, 2008 


11:31:48 PM 
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Lease Expires ..... . + + + « : Monday, December 22, 2008 
11:31:40 AM 

Default Gateway . +» è » e è èw = 2 10.0.0.1 

DHCP Server . o ass os oo «@ © & 10.50.0.1 

DNS Servers . so © « © © é è © 2 = 110.0.0.1 

NetBIOS over Tcpip. .... » . » : Enabled 


Connection-specific DNS Suffix Search List :home 


这 个 命令 非常 有 用 ， 可 查看 通过 DHCP 或 其 他 手段 为 主机 分 配 的 配置 信息 。 


6.2.4.2 DHCP 状态 机 
DHCP 协议 在 客户 机 和 服务 器 中 运行 一 个 状态 机 。 状 态 用 于 指出 协议 下 一 个 处 理 的 消息 类 
型 。 图 6-10 描述 了 客户 机 的 状态 机 。 状 态 之 间 的 转换 (箭头 ) 源 于 消息 的 接收 和 发 送 或 超时 。 
如 图 6-10 所 示 ， 客 户 机 开始 于 








INIT (初始 ) 状态 ， 这 时 没有 信息 ， SK 发 送 

并 广播 DHCPDISCOVER 消息 。 在 l | ki 
选择 状态 时 ， 它 接收 DHCPOFFER i 
消息 ， 直 到 决定 自己 使 用 哪个 地 址 

和 服务 器 。 当 它 做 出 选择 时 ， 通 过 。 接收 NACK pd 


(或 租约 到 期 ) 发 送 REQUEST 
接收 ACK( 拒 绝 ) 
发 送 DECLINE 
或 接收 NACK 


一 个 DHCPREQUEST 消息 来 响应 ， 
并 进入 请 求 状态 。 这 时 ， 它 可 能 接 
收 来 自 不 需要 的 地 址 的 ACK。 如 
果 它 没有 发 现 需要 的 地 址 ， 发 送 一 
个 DHCPDECLINE 消息 ， 并 转换 到 


INIT 状态 。 但 是 ,更 有 可 能 出 现 的 
情况 是 ， 它 接收 到 一 个 自己 需要 的 T2 到 期 (获得 T1T2 ) 
地 址 的 DHCPACK 消息 ， 接 受 它 ， 
获得 超时 值 T1 和 T2， 并 进入 绑 定 
状态 ， 这 时 就 能 使 用 这 个 地 址 直至 T1 到 期 
到 期 。 当 第 一 个 计时 器 (CT1 ) 到 期 
时 ， 客 户 机 进入 更 新 状态 并 尝试 重新 
建立 租约 。 如 果 它 接收 到 一 个 新 的 
DHCPACK (客户 机 进入 绑 定 状态 )， 
这 个 过 程 成 功 。 如 果 不 成 功 ，T2 最 终 到 期 ， 并 导致 客户 机 尝试 从 任意 服务 器 重新 获得 一 个 
地 址 。 如 果 租 用 期 最 终 到 期 ， 客 户 机 必须 放弃 所 租用 的 地 址 ， 如 果 没 有 可 选 的 地 址 或 可 用 的 
网 络 连 接 ， 这 时 它 将 断 开 网 络 连接 。 


图 6-10 DHCP 客户 机 的 状态 机 。 粗 体 的 状态 和 转换 通常 
涉及 客户 机 首次 获得 租用 地 址 。 虚 线 和 INIT 状 
态 表 示 协 议 开 始 


6.2.5 DHCPv6 


虽然 IPv4 和 IPv6 的 DHCP 协议 希望 实现 类 似 目 标 , 但 它们 各 自 的 协议 设计 和 部 署 选项 
不 同 。DHCPv6[RFC3315] 可 使 用 一 种 “有 状态 ”模式 ， 其 工作 原理 非常 像 DHCPv4， 它 也 
可 以 使 用 一 种 “无 状态 ”模式 ， 并 结合 无 状态 地 址 自动 配置 ( 见 6.3 节 )。 在 无 状态 模式 下 ， 
IPv6 客户 机 认为 自己 能 配置 IPv6 地 址 ， 但 需要 通过 DHCPv6 获得 额外 信息 (例如 DNS Hk 
务 器 地 址 )。 男 一 种 选择 可 使 用 ICMPv6 路 由 器 通告 消息 ( 见 第 8 章 、 第 11 BEA [RFC6106]) 
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获得 一 台 DNS 服务 器 的 位 置 。 


6.2.5.1 IPv6 地 址 生命 周期 

IPv6 主机 的 每 个 接口 通常 拥有 多 个 地 址 ， 并 且 每 个 地 址 都 拥有 一 组 计时 器 ， 以 指出 相应 
地 址 可 使 用 多 长 时 间 和 用 于 什么 目的 。 在 IPv6 中 ， 地 址 分 配 包含 一 个 首选 生命 周期 和 一 个 
有 效 生命 周期 。 这 些 生命 周期 用 于 判断 超时 ， 将 地 址 在 自己 的 状态 机 中 从 一 种 状态 转换 为 另 
一 种 状态 ( 见 图 6-11 )。 





址 ， 并 可 无 限制 地 使 用 ， 直 至 超时 将 其 状态 更 改 为 废弃 。 上 废弃 地 址 不 能 用 于 初始 化 新 连接 ， 
并 且 可 能 在 有 效 超 时 期 满 后 不 能 使 用 


图 6-11 给 出 了 一 个 IPv6 地 址 的 生命 周期 。 当 一 个 地 址 处 于 首选 状态 时 ， 它 可 用 于 一 般 
用 途 ， 并 可 作为 源 或 目的 IPv6 地 址 。 当 首选 状态 的 超时 到 达 时 ， 相 应 的 首选 地 址 将 废弃 。 当 
该 地 址 处 于 废弃 状态 时 ， 它 仍 可 用 于 现 有 传输 (例如 TCP) 连接 ， 但 不 能 用 于 启动 新 的 连接 。 

当 一 个 地 址 第 一 次 被 选择 使 用 时 ， 它 进入 一 个 临时 或 乐观 状态 。 在 处 于 临时 状态 时 ， 它 
可 能 仅 用 于 IPv6 邻居 发 现 协议 ( 见 第 8 章 )。 这 时 ， 它 不 可 用 作 任 何其 他 目的 的 源 或 目的 地 
址 。 同 时 ， 该 状态 的 地 址 要 检测 重复 ， 看 看 同一 网 络 中 的 其 他 节点 是 否 已 使 用 该 地 址 。 这 个 
过 程 称 为 重复 地 址 检测 (DAD)， 我 们 将 在 6.3.2.1 节 详 细 介绍 。 常 规 DAD 的 替代 方案 称 为 
乐观 DAD[RFC4429]， 通 过 它 选择 的 地 址 可 用 于 一 组 有 限 的 用 途 ， 直 至 DAD 完成 。 因 为 一 
个 乐观 状态 的 地 址 实际 上 仅 是 针对 DAD 的 一 组 特殊 规则 ， 它 不 是 一 个 真正 完整 的 状态 。 乐 
观 地 址 对 大 多 数目 的 而 言 是 废弃 的 。 特 别 是 ,一 个 地 址 可 能 同时 是 乐观 的 和 废弃 的 ， 这 取决 
于 首选 和 有 效 生命 周期 。 


6.2.5.2 DHCPv6 消息 格式 

DHCPv6 消息 封装 为 UDP/IPv6 数据 报 ， 它 使 用 客户 机 端口 546 和 服务 器 端口 547( 见 
第 10 章 )。 消 息 发 送 到 中 继 代 理 或 服务 器 ， 它 使 用 一 台 主 机 的 链 路 范围 的 源 地 址 。 这 里 存在 
两 种 消息 格式 ， 一 种 用 于 客户 机 与 服务 器 之 间 ， 另 一 种 用 于 中 继 代理 ( 见 图 6-12 )。 

6-12 左 侧 给 出 了 基本 DHCPvV6 消息 格式 ， 右 侧 给 出 了 一 种 扩展 版 本 ， 其 中 包括 链 
路 地 址 和 对 等 方 地 址 字段 。 右 侧 的 格式 用 于 DHCPv6 中 继 代理 和 DHCPv6 服务 器 之 间 。 链 
路 地 址 字段 给 出 了 全 局 IPv6 地 址 ， 服 务 器 用 它 标识 客户 机 所 处 的 链 路 。 对 等 方 地 址 字段 包 
含 中 继 代理 地 址 或 客户 机 地 址 (要 中 继 的 消息 来 自 该 客户 机 )。 注 意 ， 中 继 过 程 可 能 是 链 状 
的 ， 某 个 中 继 可 能 转发 来 自 其 他 中 继 的 消息 。6.2.6 节 中 描述 了 针对 DHCPv4 和 DHCPv6 的 
中 继 。 
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中 继 代 理 消息 格式 


6-12 ”基本 DHCPv6 消息 格式 (AL) 和 中 继 代 理 消息 格式 (A). 


左 侧 的 消息 格式 中 的 消息 类 型 包括 典型 的 DHCP 消息 (REQUEST, REPLY 等 )， 右 侧 
的 消息 格式 中 的 消息 类 型 包括 RELAY-FORW 和 RELAY-REPL, 分 别 表示 从 中 继 代 理 转 发 和 
目的 地 是 中 继 代理 的 消息 。 右 侧 的 选项 字段 包括 一 个 中 继 消息 选项 ， 其 中 包含 中 继 转发 的 完 


在 DHCPv6 中 ,最 有 意义 的 信息 携带 在 选项 中 


整 消 息 。 其 他 选项 也 可 包含 在 内 。 


DHCPv4 和 DHCPv6 之 间 的 区 别 之 一 是 DHCP v6 使 用 IPv6 组 播 地 址 的 方式 。 客 户 机 将 请 
求 发 送 到 所 有 DHCP 中 继 代 理 和 服务 器 的 组 播 地 址 ( ff02::1:2 )。 源 地 址 在 链 路 本 地 范围 。 在 
IPv6 中 ,没有 保留 BOOTP 消息 格式 。 但 是 ， 这 个 消息 的 语义 类 似 。 表 6-1 给 出 了 DHCPv6 
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的 消息 类 型 、 取 值 和 定义 它 的 RFC， 以 及 针对 DACPV4 的 同类 消息 和 定义 它 的 REC. 


表 6-1 DHCPv6 消息 的 类 型 、 值 和 标准 。 右 侧 给 出 了 针对 DHCPv4 的 同类 消息 


DRCPV HR 
REQUEST 
CONFIRM f@ | meos [roussr | 
RENEW 
REBIND [6 cans) [prscover | 
REPLY 
RELEASE is ca [RereAse | 
RECONFIGURE 
INFORMATION-REQUEST [| caasl | NFORM | 
RELAY-FORW 
RELAY-REPL 
LEASEQUERY 

UNKNOWN, ACTIVE} 
[EASEQUERV;DONE [is | cs | LEASEQUERYDONE | 


参考 文献 
[RFC2132] 
[RFC2132] 
[RFC2132] 
[RFC2132] 
[RFC2132] 
[RFC2132] 
[RFC2132] 
[RFC2132] 
[RFC2132] 
[RFC3203] 
[RFC2132] 


[RFC4388] 
[RFC4388] 


[ID4LQ] 
N/A 
[ID4LQ] 
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在 DHCPv6 中 ， 最 有 意义 的 信息 携带 在 选项 中 ， 包 括 地 址 、 租 用 时 间 、 服 务 位置 ， 以 及 
客户 端 标识 符 和 服务 器 标识 符 。 这 些 选项 使 用 的 两 个 重要 概念 是 身份 关联 (IA) Fl DHCP 唯 
一 标识 符 (DUID)。 我 们 将 在 后 面 加 以 讨论 。 


6.2.5.3 ”身份 关联 

身份 关联 (IA) 是 用 在 DHCP 客户 机 和 服务 器 之 间 的 一 个 标识 符 ， 用 于 指向 一 个 地 址 
集 。 每 个 IA 包括 一 个 IA 标识 符 (IAID) 和 相关 配置 信息 。 每 个 请 求 DHCPv6 分 配 地 址 的 客 
户 机 接口 至 少 需要 一 个 IA。 每 个 IA 可 以 仅 与 一 个 接口 相关 联 。 客 户 机 选择 的 IAID 唯一 地 
标识 每 个 IA， 并 将 这 个 值 与 服务 器 共享 。 

IA 相关 的 配置 信息 包括 一 个 或 多 个 地 址 ， 以 及 相关 的 租约 信息 (TL1、T2 和 总 的 租用 时 
间 值 )。IA 的 每 个 地 址 都 有 一 个 首选 的 和 一 个 有 效 的 生命 周期 [RFC4862]， 它 定义 了 地 址 的 
整个 生命 周期 。 请 求 的 地 址 类 型 可 以 是 常规 地 址 或 临时 地 址 [RFC4941]。 临 时 地 址 由 随机 数 
的 一 部 分 派生 而 来 ， 用 于 协助 改善 IPv6 主机 地 址 跟踪 的 隐私 问题 。 临 时 地 址 通常 与 非 临时 
地 址 同时 分 配 ， 但 需要 频繁 使 用 不 同 的 随机 数 重新 生成 。 

当 服务 器 响应 一 个 请 求 时 ， 它 为 客户 机 的 IA 分 配 一 个 或 多 个 地 址 ， 分 配 时 基于 服务 器 
管理 员 确定 的 一 组 地 址 分 配 策略 。 在 通常 情况 下 ， 这 些 策略 依赖 于 请 求 所 到 达 的 链 路 、 客 
户 机 的 标准 信息 (IL 6.2.5.4 节 的 DUID)， 以 及 DHCP 选项 中 由 客户 机 提供 的 其 他 信息 。 
图 6-13 给 出 了 非 临 时 地 址 和 临时 地 址 的 IA 选项 格式 。 


0 1516 31 0 1516 31 
OPTION_IA_NA 选项 OPTION_IA_TA 选项 长 度 
IAID (4 字 节 ) IAID (4 字 节 ) 
Tl i IA_TA 选项 i 
T2 E ale 《可 变 ) i 
i IA_NA 选项 i 针对 临时 地 址 选项 的 IA 
i (可 变 ) i 
针对 非 临时 地 址 选项 的 IA 


























图 6-13 非 临 时 地 址 (Æ) 和 临时 地 址 CA) 的 DHCPv6 IA 格式 。 每 个 选项 可 能 包括 额外 的 选项 ， 以 
便 描述 特定 IPv6 地 址 和 相应 的 租约 


如 图 6-13 所 示 ， 对 于 非 临时 地 址 和 临时 地 址 的 IA 选项 ， 主 要 区 别 是 非 临 时 地 址 包括 
TI 和 T2 值 。 这 些 值 是 已 知 的 ， 它 们 也 是 DHCPv4 使 用 的 值 。 对 于 临时 地 址 ， 可 能 缺少 Tl 
和 T2， 因 为 生命 周期 通常 基于 分 配给 非 临时 地 址 的 T1 和 T2 值 确定 ， 这 些 值 之 前 是 已 知 的 。 
[RFC4941] 给 出 了 临时 地 址 的 细节 。 


6.2.5.4 .DHCP 唯一 标识 符 

DHCP 唯一 标识 符 ( DUID) 用 于 标识 一 台 DHCPv6 客户 机 或 服务 器 ， 并 被 设计 为 可 持 
续 一 段 时 间 。 服 务 器 用 它 标识 所 选 地 址 (作为 IA 的 一 部 分 ) 对 应 的 客户 机 和 配置 信息 ， 客 户 
机 用 它 标识 感 兴趣 的 服务 器 。DUID 长 度 是 可 变 的 ， 对 于 大 多 数 用 途 来 说 ， 客 户 机 和 服务 器 
将 它 看 作 一 个 不 透明 的 值 。 

DUID 是 全 球 唯 一 的 ， 但 它 很 容易 生成 。 为 了 同时 满足 这 些 关 系 ，[RFC3315] 定义 了 三 
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种 可 能 的 DUID 类 型 ， 但 也 不 是 只 能 创建 这 三 种 类 型 。 三 种 DUID 类 型 如 下 : 

1) DUID-LLT: 基于 链 路 层 地 址 和 时 间 的 DUID。 

2) DUID-EN: 基于 企业 编号 和 供应 商 分 配 的 DUID。 

3 ) DUID-LL: 仅 基于 链 路 层 地 址 的 DUID。 

一 个 标准 格式 的 DUID 编码 开始 于 一 个 2 字 节 的 标识 符 ， 用 于 指出 是 哪 种 类 型 的 
DUID。 当 前 列表 由 IANA 维护 [ID6PARAM]。 在 DUID-LLT 和 DUID-LL 中 ， 紧 跟着 是 一 个 
来 自 [RFC0826] 的 16 位 的 硬件 类 型 ; 在 DUID-EN 中 ， 则 是 一 个 32 位 的 专用 企业 编号 。 


注意 专用 企业 编号 (PEN) 是 一 个 32 位 的 值 ， 它 由 IANA 分 配给 一 个 企业 。 它 通 
常 与 SNMP 协议 共同 用 于 网 络 管理 目的 。 到 2011 年 中 期 ， 已 分 配 大 约 38 000 个 编 
号 。 当 前 列表 可 从 IANA 获得 [IEPARAM]。 


第 一 种 格式 的 DUID( 即 DUID-LLT) 是 推荐 的 格式 。 在 硬件 类 型 之 后 ， 它 包括 一 个 32 
位 的 时 间 戳 ， 其 中 的 秒 数 开 始 于 2000 年 1 月 1 日 午夜 (UTC)(mod 2”), CHE 2136 年 归 
F (返回 0 )。 最 后 部 分 是 一 个 可 变 长 度 的 链 路 层 地 址 。 链 路 层 地 址 可 由 任何 主机 接口 选择 ， 
并 使 用 相同 的 DUID,， 一 旦 选 定 ， 它 可 用 于 与 任何 接口 的 通信 。 这 种 格式 的 DUID 是 稳定 的 ， 
即使 网 络 接口 从 该 DUID 中 移 除 。 因 此 ， 它 需要 主机 系统 固定 存储 相关 信息 。DUID-LL 格式 
非常 相似 ， 但 推荐 给 缺少 固定 存储 (但 有 一 个 固定 的 链 路 层 地 址 ) 的 系统 。RFC 指出 DUID- 
LL 不 能 用 于 某 些 客户 机 或 服务 器 ， 它 们 不 能 确定 自己 使 用 的 链 路 层 地 址 是 否 与 一 个 可 删除 
的 接口 有 关 。 


6.2.5.5 ”协议 操作 

DHCPv6 协议 操作 与 DHCPv4 的 对 应 部 分 相似 。 一 台 客 户 机 是 否 启用 DHCP， 取 决 于 这 
台 主 机 接收 的 ICMPv6 路 由 器 通告 消息 中 的 配置 选项 〈 见 第 8 章 )。 路 由 器 通告 包括 两 个 重要 
的 位 字段 。M 位 是 可 管理 地 址 配置 标志 ， 表 示 IPv6 地 址 可 使 用 DHCPv6 获得 。OO 位 是 其 他 
配置 标志 ， 表 示 IPv6 地 址 之 外 的 其 他 信息 可 使 用 DHCPv6 获得 。 这 两 个 字段 和 其 他 字段 定 
义 在 [RFC5175] 中 。M 和 0 位 字段 可 以 任意 组 合 , 但 M 启用 和 O 关闭 可 能 是 最 不 实用 的 组 
合 。 如 果 两 者 都 关闭 ， 则 不 使 用 DHCPv6， 并 在 分 配 地 址 时 使 用 无 状态 地 址 自动 分 配 ( 见 6.3 
节 )。M 关闭 和 O 启用 表示 客户 机 使 用 无 状态 DHCPv6， 并 使 用 无 状态 地 址 自动 配置 获得 地 
址 。DHCPv6 协议 操作 使 用 表 6-1 定义 的 消息 ， 如 图 6-14 所 示 。 

在 通常 情况 下 ， 一 台 客 户 机 首先 确定 使 用 的 链 路 本 地 地 址 ， 然 后 执行 ICMPv6 路 由 
器 发 现 操作 ( 见 第 8 章 )， 以 确定 所 在 网 络 中 是 否 存 在 一 台 路 由 器 。 路 由 器 通告 包括 前 面 
提 到 的 M 和 0 位 字段 。 如 果 正 在 使 用 DHCPv6， 则 至 少 设置 M 位 字段 ， 并 且 由 客户 机 来 
组 播 ( 见 第 9 章 ) DHCPSOLICIT 消息 ， 以 便 发 现 DHCPvV6 服务 器 。 如 果 存 在 一 个 或 多 个 
DHCPADVERTISE 响应 消息 ， 表 示 至 少 存在 一 台 DHCPv6 服务 器 。 这 些 消 息 由 2 次 称 为 四 
消息 交换 的 DHCPv6 操作 构成 。 

在 已 知 一 台 DHCPv6 服务 器 位 置 ， 或 不 需要 分 配 地 址 (例如 无 状态 DHCPv6 或 使 用 快 
加 确认 选项 ， 见 6.2.9 节 ) 的 情况 下 ,“ 四 消息 交换 ”可 简化 为 “两 消息 交换 ”"， 在 这 种 情况 
下 只 使 用 请 求 和 应 答 消 息 。DHCPv6 服务 器 确认 DUID、IA 类 型 (临时 、 非 临时 或 前 缀 ， 见 
6.2.5.3 节 ) FI IAID 结合 而 成 的 绑 定 。IAID 是 由 客户 机 选择 的 一 个 32 位 数字 。 每 个 绑 定 可 
以 有 一 个 或 多 个 租约 ， 一 个 或 多 个 绑 定 可 通过 一 个 DHCPv6 事务 来 处 理 。 
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图 6-14 DHCPv6 的 基本 操作 。 客 户 机 通过 ICMP v6 路 由 器 通告 中 的 信息 决定 是 否 使 用 DHCPv6。 如 
果 使 用 ，DHCPv6 操作 与 DHCPv4 相似 ， 但 在 细节 上 有 显著 不 同 


6.2.5.6 扩展 的 例子 

6-15 给 出 了 一 个 例子 ， 一 台 Windows Vista ( Service Pack 1 ) 机 器 连接 到 一 个 无 线 网 
络 。 它 的 IPv4 协议 栈 已 被 禁用 。 它 首先 分 配 自 己 的 链 路 本 地 地 址 ， 并 检查 该 地 址 是 否 已 被 
使 用 。 

在 图 6-15 中 ， 我 们 看 到 ICMPv6 邻居 请 求 (DAD) 为 客户 机 分 配 的 乐观 地 址 为 
fe80::fd26:de93:5ab7:405a. (我 们 在 6.3.2.1 节 讨 论 无 状态 地 址 自动 配置 时 ， 详 细 描 述 了 
DAD.) 分 组 发 送 到 对 应 的 目的 节点 地 址 ff02::1:ffb7:405a。 它 乐观 地 假设 该 地 址 没有 在 链 路 
上 使 用 ， 因 此 它 立即 发 送 一 个 路 由 器 请 求 (RS)( 见 图 6-16 )。 

图 6-16 中 所 示 的 RS 发 送 到 所 有 路 由 器 的 组 播 地 址 frn2::2。 这 导致 网 络 中 的 每 台 路 由 顺 
都 响应 一 个 路 由 器 通告 (RA)， 其 中 携带 重要 的 M 位 和 0O 位 ， 客 户 需 要 通过 它们 来 决定 下 一 
步 怎样 做 。 


注意 这 个 例子 显示 了 从 乐观 地 址 发 送 的 一 个 路 由 器 请 求 ， 其 中 包括 一 个 源 链 路 层 
地 址 选项 ( SLLAO)， 这 违反 了 [RFC4429] 中 的 规定 。 这 里 的 问题 是 对 任何 处 于 侦 
听 状 态 的 IPV6 路 由 器 邻居 缓存 的 潜在 污染 。 它 们 将 处 理 这 个 选项 ， 并 在 自己 的 邻 
居 缓 存 中 建立 临时 地 址 和 链 路 层 地 址 之 间 的 映射 ， 这 可 能 重复 。 但 是 ， 这 种 情况 通 
常 很 少 发 生 ， 并 且 不 怎么 被 关注 。 尽 管 如 此 ， 如 果 待 定 的 “乐观 ”选项 [IDDN] 是 
标准 的 ， 将 允许 路 由 器 请 求 包含 一 个 用 于 避免 此 问题 的 SLLAO。 
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图 6-17 中 的 RA 表示 一 台 路 由 器 存在 ， 包 括 00:04:5a:9f:9e:80 的 SLLAO， 它 对 客户 
机 封装 目的 地 为 该 路 由 器 的 后 续 链 路 层 帧 是 有 用 的 。 标 志 字 段 表示 M 位 和 O 位 字段 都 启用 
(设置 为 1 )， 因 此 客户 机 应 继续 使 用 DHCPv6， 以 便 获 得 自己 的 地 址 和 其 他 配置 信息 。 这 个 
过 程 通过 请 求 一 台 DHCPv6 服务 器 来 完成 ( 见 图 6-18 ) 。 


vista-dhcpv6.tr - Wireshark 


¢9o% 3 GE 


Code: 0 
Checksum: 0x4017 [correct] 
Cur hop limit: 64 
G Flags: Oxco . 
1... .... = Managed 
odes see. = Other 
..0. 2... = NOt Home Agent 
«..0 0... = Router preference: Medium 
weve 0.. = NOt Proxied 
Router lifetime: 1800 
Reachable time: 0 
Retrans timer: 0 
@ ICMPv6 Option (Source link-layer address) 
Type: Source link-layer address (1) 
Length: 8 





ee. 


图 6-17 一 个 路 由 器 通告 指出 地 址 可 被 管理 (可 使 用 DHCPv6 分 配 )， 以 及 可 使 用 DHCPv6 获得 的 
其 他 信息 (例如 DNS 服务 器 )。 这 个 网 络 使 用 有 状态 DHCPv6。IPv6 路 由 器 通告 消息 使 用 
ICMPv6 ( 见 第 8 章 ) 





图 6-18 中 显示 了 DHCPv6 SOLICIT 消息 ， 其 中 包括 事务 ID (45 DHCPv4 相似 )、 经 历 
的 时 间 (0， 图 中 未 显示 )， 以 及 一 个 包含 时 间 和 6 字 节 MAC 地 址 的 DUID。 在 这 个 例子 中 ， 
MAC 地 址 00:14:22:f4:19:5f 是 这 台 客 户 机 的 有 线 以 太 网 接口 MAC 地 址 ， 它 不 是 用 来 发 送 
SOLICIT 消息 的 接口 。 回 想 DUID-LL 和 DUID-TLL 类 型 的 DUID， 其 中 的 链 路 层 信 息 对 不 
同 接口 应 该 是 一 样 的 。IA 是 一 个 非 临 时 的 地 址 ， 并 且 客 户 机 已 选择 IAID 为 09001302。 这 个 
请 求 中 的 时 间 值 为 0， 意味 着 客户 机 没有 特定 的 期 望 ， 它 们 将 由 服务 器 来 决定 。 

下 一 个 选项 是 [RFC4704] 规定 的 FQDN 选项 。 它 用 于 携带 客户 机 的 FQDN， 但 会 影响 
DHCPv6 和 DNS 之 间 的 交互 (IL 6.4 节 中 的 DHCP 和 DNS 交互 )。 这 个 选项 用 于 启用 由 客户 
机 或 服务 器 动态 更 新 的 FQDN 到 IPv6 地 址 的 映射 。( 反 向 通常 由 服务 器 来 处 理 。) 这 个 选项 的 
第 一 部 分 包含 3 位 : N (服务 器 不 执行 更 新 )、O (服务 器 忽略 客户 机 请 求 ) 和 SS (服务 器 执行 
更 新 )。 这 个 选项 的 第 二 部 分 包含 一 个 域名 ， 它 可 能 是 完全 限定 域名 ， 也 可 能 不 是 。 


注意 Wireshark 工具 显示 图 6-18 中 记录 的 FQDN 名 称 异 常 ， 并 推测 该 分 组 可 能 是 
由 一 个 MS Vista 客户 机 生成 的 。 字 段 异 常 的 原因 是 这 个 选项 的 最 初 规范 允许 使 用 
ASCII 字符 编码 的 简单 域名 。 这 种 方法 在 [RFC4704] 中 已 被 废弃 ， 并且 两 种 编码 不 
直接 兼容 。 微 软 提 供 了 一 个 修补 程序 ， 为 Vista 系统 解决 这 个 问题 。 微 软 Windows 
7 系统 的 行为 符合 [RFC4704]。 
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vista-dhepv6.tr - Wireshark 


„Ble, Edt Yew Go, Capture Arayee, Botities 


als 





t 
Transaction ID; Oxe3410c 
m Elapsed time 
@ Client Identifier: 000100010dd14b2e001422f4195f 
Option: Client Identifier (1) 
Length: 14 
Value: 000100010dd14b2e001422f4195F 
DUID type: link-layer address plus time (1) 
Hardware type: Ethernet (1) 
Time: May 6, 2007 19:27:58 Pacific Daylight Time 
Link-layer address: 00:14:22:f4:19:5F 
(@ Identity Association for Non-temporary Address 
Option: Identity Association for Non-temporary address (3) 
Length: 12 
Value: 090013020000000000000000 
IAID: 09001302 
Ti: 0 
T2: 9 
G Fully Qualified Domain Name 
Option: Fully Qualified Domain Name (39) 
Length: 6 
Value: 007669737461 
0000 0... = Reserved: 0x00 
-0.. = N bit: Server should perform DNS updates 
. «-0. = O bit: server has not overridden client's s bit preference 
Tinga 0 = S bit: Server should not perform forward DNS updates 
Malformed DNS name record (Ms vista client?) 
网 Vendor Class 
Option: vendor Class (16) 
Length: 14 
Value: 0000013700084d53465420352e30 
Enterprise ID; Microsoft (311) 
vendor-class—data: "MSFT 5.0" 
Option Request 
Option: Option Request (6) 
Length: 8 
Value: 0018001700110027 
Requested Option code: Domain Search List (24) 
Requested Option code: DNS recursive name server (23) 
Requested Option code: vendor-specific Information (17) 
Requested Option code: Fully qualified Domain Name (39) 





Al 6-18 DHCPv6 SOLICIT 消息 请 求 一 个 或 多 个 DHCPv6 服务 器 的 位 置 ， 
以 及 用 于 识别 客户 机 的 信息 和 它 感 兴趣 的 选项 


请 求 消息 中 的 其 他 信息 包括 供应 商 类 别 标识 符 和 请 求 选 项 列表 。 在 这 种 情况 下 ， 供 应 商 
类 别 数据 包括 字符 串 “MSFT 5.0”， 它 可 由 一 台 DHCPv6 服务 器 使 用 ， 以 确定 客户 机 能 进行 
哪些 类 型 的 处 理 。 为 了 响应 客户 机 的 请 求 ， 服 务 器 响应 一 个 通告 消息 ( 见 图 6-19 ) 。 

6-19 所 示 的 ADVERTISE 消息 为 客户 机 提供 了 更 多 信息 。 客 户 机 标识 符 选 项 与 客户 
机 配置 信息 相 呼 应 。 服 务 器 标识 符 选 项 给 出 了 一 个 时 间 和 一 个 链 路 层 地 址 10:00:00:00:09:20 
来 标识 服务 器 。IA 拥有 一 个 IAID 值 09001302 (由 客户 机 提供 )， 并 包括 一 个 全 球 地 址 
2001:db8:0:f101::10fd， 其 首选 生命 周期 和 有 效 生 命 周 期 分 别 为 130s 和 200s (超时 时 间 相 
当 短 )。 状 态 码 为 0 表示 成 功 。 与 DHCPv6 通告 一 起 提供 的 还 有 DNS 递归 名 称 服务 器 选项 
[RFC3646]， 它 指出 一 个 服务 器 地 址 2001:db8:0:f101::1 和 一 个 包含 home 字符 串 的 域名 搜索 
列表 选项 。 注 意 ， 服 务 器 并 不 包括 FQDN 选项 ， 这 是 由 于 它 不 需要 执行 这 个 选项 。 

下 面 两 个 分 组 是 常规 的 邻居 请 求 和 邻居 通告 消息 ， 它 们 在 客户 机 与 路 由 器 之 间 交 | 
换 ， 我 们 不 会 进一步 描述 它们 。 这 个 交换 开始 于 客户 机 请 求 确认 一 个 全 球 非 临 时 地 址 
2001:db8:0:£101::10fd (ILAI 6-20 ) 。 
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vista-dhepv6.tr - Wireshark 








Message type: Advertise (2) 
Transaction ID: Oxe3410¢ 
@ Client Identifier: 000100010dd14b2e001422F4195F 
Server Identifier; 0001000100d14b2e100000000920 
Option: Server Identifier (2) 
Length: 14 
value: 000100010dd14b2e100000000920 
DUIO type: Tink-layer address plus time (1) 
Hardware type: Ethernet (1) 
Time: May 6, 2007 19:27:58 Pacific Daylight Time 
Link-layer address: 10:00:00:00:09:20 
S Identity Association for Non-temporary Address 
option: Identity Association for Non-temporary Address (3) 
Length: 46 
Value: 090013020000003c000000540005001e20010db80000F101. . 
IAID: 09001302 
Ti: 60 
T2: 90 
IA Address: 2001:db8:0:f101;:10fd 
Option: Ia address (5) 
Length: 30 
Value: 20010db80000F1010000000000001 OF do00G0082000000c8. .. 
Ipv6 address: 2001:db8:0:f101::10fd 
Preferred lifetime: 130 
valid lifetime: 200 
@ Status code 
Option: status code (13) 
Length: 2 
value: 0000 
Status Code; Success (0) 
BDNS recursive name server 
Option: ONS recursive name server (23) 
Length: 16 
Value: 20010db80000F1010000000000000001 
ONS servers address: 2001:db8:0:f101: :1 
BB Domain Search List 
Option: Domain Search List (24) 
Length: 6 
Value: 04686f6d6500 
DNS Domain Search List 
Domain: home 


vista-dhicpé.tr - Wireshark 





p Cy 00:13702:20: ;baa (00:13 :02:20:b9:18), pst 330 {33 
w Internet Protocol version 6, Src: FeBos:fd26:de93:5al7:405a (fe80: F26:0689: Sab: ae Dst at 
四 user Datagram Protecol, Src Port: 546 (546), Ost Port: 547 (S47) z 
la DHCPVU6 
Message type: Request (3) 
Transaction ID: 0xe3410c 
w Elapsed time 
f Client Identifier: 000100010dd14b2e001422F4195F 
® Server Identifier: 000100010dd14b22100000000920 
f Identity Association for Non-temporary Address 
Option: Identity association for Non-temporary Address (3) 
Length: 40 
Value: 090013020000003c000000520005001820010dbs0000f101. . . 
IAID: 0900130? 
Ti: 60 
T2: 90 
f@ Ia address: 2001:db8:0:f101::1o0fd 
option: IA Address (5) 
Length: 24 
Value: 20010db80000f10100000000000010fd00000082000000c8 
IPvő address: 2001:db8:0:f101::10fd 
Preferred lifetime: 130 
valid lifetime: 200 
w Fully Qualified Domain name 
@ vendor Class 
@ Option Request 





图 6-20 DHCPv6 REQUEST 消息 与 SOLICIT 消息 相似 ， 但 它 包含 从 
服务 器 ADVERTISE 消息 中 学 习 到 的 信息 


图 6-20 所 示 的 REQUEST 消息 与 SOLICIT 消息 相似 ， 但 它 包 含 来 自 服务 器 的 ADVERTISE 
消息 中 携带 的 信息 (地 址 及 Tl 和 T2 值 )。 我 们 看 到 的 所 有 DHCPv6 消息 中 的 事务 ID 相同 。 
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这 个 交换 通过 REPLY 消息 完成 ， 它 与 ADVERTISE 消息 除了 消息 类 型 不 同 之 外 其 余 都 相同 ， 


因此 这 里 不 再 详细 介绍 。 


在 重启 一 个 系统 和 连接 到 一 个 新 的 网 络 时 ， 这 个 例子 中 交换 的 DHCPv6 消息 是 典型 的 。 
在 DHCPv4 中 ， 它 可 能 导致 一 个 系统 手工 释放 或 获得 信息 。 例 如 ， 在 Windows 中 ， 以 下 命 


令 使 用 DHCPv6 释放 获得 的 数据 : 


C:\> ipconfig /release6 
以 下 命令 用 于 获得 它 : 


C:\> ipconfig /renew6 


通过 DHCP 获得 并 分 配给 本 地 接口 的 信息 类 型 ， 可 使 用 之 前 看 过 的 该 命令 的 另 一 个 选项 


来 查看 。 下 面 是 其 输出 的 一 部 分 : 


C:\> ipconfig /all 


Wireless LAN adapter Wireless Network Connection: 


Connection-specific DNS Suffix 
Description « è s see ee tues $ 
Physical Address. . o e © è >w e 3 
DHCP ‘Enabled. > > > e © a © s = 8 
Autoconfiguration Enabled 
IPv6 Address. o o = «© o > © © © : 


Lease Expires 


: home 


Intel(R) PRO/Wireless 3945ABG 
Network Connection 
00-13-02-20-B9-18 

Yes 


: Yes 


2001:db8:0:£101::12cd(Preferred) 


: Sunday, December 21, 2008 


11:30:45 PM 
Sunday, December 21, 2008 
11:37:04 PM 


Link-local IPv6 Address ..... : 
fe80::fd26:de93:5ab7:405a%9 (Preferred) 

Default Gateway ....... > . : fe80::204:5aff:fe9f:9e80%9 
DHCPV6 IAID « « o s « 430999810 
DHCPV6 Client DUID. è è> & e o aag 

00-01-00-01-0D-D1-4B-2E-00-14-22-F4-19-5F 
DNS ‘Servers 5 6 è 2. e = 6 se > E 2001ra H8: 0rELOLT SI 
NetBIOS over Tcpip. . . . . . . . : Disabled 
Connection-specific DNS Suffix Search List : 

home 


这 里 ， 我 们 可 以 看 到 该 系统 的 链 路 层 地 址 ( 00:13:02:20:b9:18 )。 注 意 ， 在 这 个 例子 中 ， 
该 地 址 从 未 作为 形成 IPv6 地 址 的 基础 而 使 用 。 


6.2.5.7 DHCPv6 前 级 委托 (DHCPv6-PD 和 6rd) 

目前 为 止 的 讨论 围绕 着 配置 主机 ， 但 DHCPv6 也 可 用 于 配置 路 由 器 。 这 通过 一 台 路 由 器 
向 另 一 台 路 由 器 委托 一 个 地 址 空间 范围 来 实现 。 这 个 地 址 范围 可 描述 为 一 个 IPv6 地 址 前 级 。 
这 个 前 级 在 [RFC3633] 定义 的 DHCP 前 组 选项 中 。 这 用 于 路 由 器 委托 的 情况 ， 它 现在 可 像 一 
个 DHCPv6 服务 器 那样 工作 ， 而 不 需要 前 级 网 络 的 详细 拓扑 信息 。 这 种 情况 可 能 发 生 ， 例 如 
ISP 给 出 了 一 个 可 由 潜在 客户 重新 分 配 的 地 址 范围 。 在 这 种 情况 下 ，ISP 可 能 使 用 DHCPv6- 
PD 向 客户 设备 委托 一 个 前 级 。 

前 级 委 托 定义 了 一 种 新 格式 的 IA， 称 为 IA PD。 每 个 IA_PD 由 一 个 IAID 和 相关 的 配 
置信 息 构 成 ， 它 在 地 址 上 与 前 面 讨论 的 IA 相似 。DHCPv6-PD 不 只 对 固定 路 由 器 的 前 缀 委托 
有 用 ， 它 也 可 用 于 移动 路 由 器 〈 及 其 连接 的 子 网 ) [RFC6276]。 
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目前 , 已 创建 一 种 特殊 格式 的 PD (6rd， 见 [RFC5569]) 以 支持 服务 提供 商 快速 部 署 
IPv6。 在 OPTION_6RD (212) 选项 [RFC5969] 中 保存 IPv6 6rd 前 级 ， 它 用 于 根据 客户 已 分 
配 的 IPv4 地 址 为 客户 网 站 分 配 IPv6 地 址 。IPv6 地 址 是 通过 算法 来 分 配 的 ， 它 将 服务 提供 商 
提供 的 Ord 前 级 作为 前 n 位 (推荐 ”小 于 32 )。 客 户 分 配 的 单 播 IPv4 地 址 作为 后 面 的 32 (或 
更 少 ) 位 ， 这 种 IPv6 6rd 委托 前 级 同样 可 用 DHCPv6-PD 处 理 ， 并 推荐 64 位 或 更 短 长 度 用 于 
自动 地 址 配置 IL 6.4 节 )。 

OPTION_6RD 选项 长 度 可 变 ， 包括 以 下 几 个 值 ，IPv4 掩 码 长 度 、6rd 前 级 长 度 、6rd 前 
级 和 6rd 中 继 地 址 列表 (提供 6rd PARA) IPv4 地 址 )。IPv4 掩 码 长 度 给 出 了 用 于 分 配 IPv6 地 
址 的 IPv4 地 址 位 数 (从 左 侧 开 始 计算 )。 


6.2.6 使 用 DHCP 中 继 


在 最 简单 的 网 络 中 ， 一 个 DHCP 服务 器 可 供 同 一 局 域 网 中 的 客户 机 使 用 。 但 是 ， 在 更 复 
杂 的 网 络 中 ， 可 通过 一 个 或 更 多 DHCP 中 继 代 理 来 中 继 DHCP 流量 ， 这 样 做 很 有 必要 ， 而 
且 可 能 更 方便 ， 如 图 6-21 所 示 。 


网 段 A 网 段 B 







中 继 代理 使 用 中 继 代理 
i 信息 的 消息 


A DHCP 客户 机 
图 6-21 DHCP 中 继 代 理 将 DHCP 操作 扩展 到 一 个 网 段 之 外 。 中 继 和 DHCPv4 服务 器 之 间 的 信息 可 携 
带 在 中 继 代理 信息 选项 中 。DHCPvV6 中 继 以 类 似 的 方式 工作 ,但 是 它 拥 有 一 组 不 同 的 选项 


中 继 代理 用 于 将 DACP 操作 扩展 到 跨越 多 个 网 段 。 在 图 6-21 中 ， 网 段 A AB 之 间 的 中 
继 会 转发 DHCP 消息 ， 并 通过 选项 或 填充 空白 字段 使 用 额外 信息 来 标识 消息 。 注 意 ， 在 一 般 
情况 下 ， 中 继 不 会 参与 客户 机 和 服务 器 之 间 的 所 有 DHCP 流量 交换 。 相 反 ， 它 仅 中 继 那 些 广 
播 消息 (或 IPv6 中 的 组 播 )。 这 种 消息 通常 在 客户 机 首次 获得 自己 的 地 址 时 交换 。 当 一 台 客 
户 机 获得 一 个 I 地 址 ， 并 且 服 务 器 的 IP 地 址 使 用 服务 器 标识 选项 时 ， 它 可 与 服务 器 进行 单 
播 通 信 而 不 经 过 中 继 。 注 意 ， 中 继 代理 在 传统 上 是 第 3 层 设 备 ， 并 且 通 常 结合 了 路 由 功能 。 
在 讨论 第 3 层 中 继 的 基本 知识 后 ， 我 们 将 简要 介绍 在 第 2 层 的 可 蔡 代 操作 。 


6.2.6.1 中 继 代 理 信息 选项 

TE BOOTP 或 DHCP 中 继 的 最 初 概念 中 [RFC2131]， 中 继 代理 的 目的 只 是 将 一 个 消息 
从 一 个 子 网 中 继 到 另 一 个 ， 而 不 需要 经 过 一 台 路 由 器 。 这 人 允许 系统 从 一 个 集中 位 置 不 执行 
间接 传递 就 获得 一 个 地 址 。 它 对 于 企业 基于 管理 权限 进行 网 络 操作 是 有 利 的 ， 但 在 客户 采 
用 DHCP 和 其 他 地 方 (例如 ISP) 提供 DACP 基础 设施 的 情况 下 ， 这 样 做 有 可 能 需要 更 多 的 
信息 。 这 里 有 很 多 可 能 的 原因 。 例 如 ，ISP 可 能 不 完全 信任 用 户 ， 或 计 费 和 日 志 可 能 与 基本 
DHCP 协议 中 没有 的 其 他 信息 相关 。 因 此 ， 在 中 继 和 服务 器 之 间 传 递 的 消息 中 包含 额外 信息 
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变 得 有 用 。 中 继 代 理 信息 选项 (针对 DHCPv4， 简 称 RAIO) [RFC3046] 提供 了 使 IPv4 网 络 
包括 这 种 信息 的 方法 。IPv6 的 工作 方式 不 同 ， 我 们 将 在 以 后 章节 中 介绍 。 

DHCPv 4 的 RAIO 定义 在 [RFC3046] 中 ， 它 实际 是 一 个 元 选项 ， 从 某 种 意义 上 来 说 ， 它 
仅 定义 了 一 个 框架 ， 其 中 可 定义 许多 子 选项 。 很 多 这 样 的 子 选项 已 被 定义 ,包括 几 个 被 ISP 
用 于 标识 一 个 请 求 来 自 哪个 用 户 、 链 路 或 网 络 的 选项 。 在 很 多 情况 下 ， 我们 看 到 DHCP 信 


| 息 选 项 中 的 每 个 子 选项 都 有 对 应 的 IPv6 选项 。 


由 于 中 继 和 服务 器 之 间 传 输 的 一 些 信 息 对 安全 至 关 重 要 ， 因 此 在 [RFC4030] 中 定义 
了 RAIO 的 DHCP 认证 子 选 项 。 它 提供 了 一 种 确保 中 继 和 服务 器 之 间 消 息 交 换 完 整 性 的 方 
法 。 这 种 方法 与 DHCP 延期 认证 方法 非常 相似 ( 见 6.2.7 节 )， 只 不 过 它 用 SHA-1 算法 代替 了 
MD5 算法 ( 见 第 18 章 )。 


6.2.6.2 ”中 继 代 理 远 程 ID 子 选 项 和 IPv6 远程 ID 选项 

中 继 的 共同 需求 是 通过 超出 客户 机 自身 提供 的 信息 之 外 的 信息 来 标识 发 送 DHCP 请 求 的 
客户 机 。 中 继 代理 信息 选项 的 一 个 子 选项 称 为 远程 ID 子 选项 ， 它 提供 了 一 种 标识 发 送 请 求 
的 DHCP 客户 机 的 方法 ， 即 采用 一 系列 本 地 解释 的 命名 方法 〈 例 如 呼叫 方 ID 、 用 户 名 、 调 制 
解 调 器 ID 、 一 条 点 到 点 链 路 的 远程 IP 地址 )。DHCPvV6 中 继 代理 远程 ID 选项 [RFC4649] 提 
供 了 相同 的 功能 ， 它 还 包括 一 个 额外 的 字段 (企业 编号 )， 以 表明 与 供应 商 相关 的 识别 信息 。 
这 种 远程 ID 信息 格式 后 来 以 一 种 基于 企业 编号 的 特定 供应 商 方式 定义 。 一 种 常用 的 方法 是 
将 DUID 用 于 远程 ID。 


6.2.6.3 ”服务 器 标识 符 覆盖 

在 某 些 情况 下 ， 中 继 可 能 希望 干预 DHCP 客户 机 和 服务 器 之 间 的 操作 。 这 可 采用 一 个 
特殊 的 服务 器 标识 符 履 盖子 选项 来 实现 [RFC5107]。 这 个 子 选 项 是 前 面 提 到 的 RAIO 的 一 个 
选项 。 

在 通常 情况 下 ， 一 个 中 继 会 转发 SOLICIT 消息 ， 并 在 消息 从 客户 机 传递 到 服务 器 的 过 
程 中 ， 可 能 为 这 些 消息 附加 某 些 选项 。 中 继 在 这 种 情况 下 是 必要 的 ， 因 为 客户 机 可 能 还 没有 
一 个 可 接受 的 IP 地 址 ， 并 且 仅 用 广播 或 组 播 方式 将 消息 发 送 到 本 地 子 网 。 当 一 台 客 户 机 接 
收 并 选择 自己 的 地 址 之 后 ， 它 可 使 用 服务 器 标识 符 选项 中 携带 的 服务 器 标识 直接 与 DHCP 服 
务 器 通信 。 实 际 上 ， 这 将 削弱 中 继 在 客户 机 和 服务 器 之 间 后 续 事 务 中 的 作用 。 

允许 中 继 为 不 同类 型 的 消息 (例如 除了 SOLICT 外 的 REQUEST) 提供 不 同 选项 (例如 
RAIO 携带 一 个 电路 ID )， 这 通常 是 有 用 的 。 这 种 选项 包括 一 个 4 字 节 的 值 ， 以 指定 服务 器 
生成 的 DHCPREPLY 消息 中 的 服务 器 标识 符 选 项 中 使 用 的 IPv4 地 址 。 服 务 器 标识 符 履 盖 选 
项 建议 与 中 继 代理 标志 子 选 项 一 起 使 用 [RFC5010]。 这 个 RAIDO 的 子 选项 是 一 组 标志 ， 它 们 
可 携带 从 中 继 到 服务 器 的 信息 。 到 目前 为 止 ， 只 有 一 个 关于 这 种 标志 的 定义 : 客户 机 是 否 使 
用 广播 或 单 播 地 址 作为 初始 消息 中 的 目的 地 址 。 服 务 器 可 能 根据 这 个 标志 设置 做 出 不 同 的 地 
址 分 配 决 定 。 


6.2.6.4 ”租约 查询 和 大 批量 租约 查询 
在 某 些 环境 下 ， 人 允许 第 三 方 系统 (如 中 继 或 接 人 集中 器 ) 学 习 一 个 特定 DHCP K 
户 机 的 地 址 绑 定 是 有 用 的 。 这 个 功能 由 DHCP 租约 查询 (针对 DHCPv 4 AY [RFC4388] 


' [RFC6148]， 或 针对 DHCPv6 的 [RFC5007]) 来 提供 。 在 DHCPv6 中 ， 它 也 可 为 委托 前 级 提 


供 租约 信息 。 在 图 6-21 中 ， 中 继 代理 可 能 从 经 过 的 DHCP 分 组 中 “搜集 ”信息 ， 以 影响 那 
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些 提 供给 DHCP 服务 器 的 信息 。 这 些 信 息 可 能 由 中 继 保存 ， 但 也 可 能 在 中 继 失 败 时 丢弃 。 
DHCPLEASEQUERY 消息 允许 一 个 代理 根据 需要 重新 获得 这 种 信息 ， 它 通常 发 生 在 一 个 中 
继 流 量 已 失去 绑 定 的 情况 下 。 对 于 DHCPv4，DHCPLEASEQUERY 消息 支持 4 种 查询 : IPv4 
地 址 、MAC 地 址 、 客 户 机 标识 符 和 远程 ID 。 对 于 DHCPv6， 它 支持 两 种 查询 : IPv6 地 址 和 
客户 机 标识 符 (DUID ) 。 

DHCPv4 服务 器 可 能 用 以 下 几 种 消息 响应 租约 查询 : DHCPLEASEUNASSIGNED, 
DHCPLEASEACTIVE 或 DHCPLEASEUNKNOWN。 第 一 个 消息 指出 该 查询 值 的 响应 服务 
器 是 授权 的 ， 但 目前 没有 分 配 相应 租约 。 第 二 种 形式 表示 一 个 租约 是 有 效 的 ， 并 提供 了 租 
ASK (包括 Tl 和 T2 )。 这 里 没有 对 此 信息 用 途 的 特定 建议 ， 无 论 出 于 何 种 目的 ， 都 希 
望 提供 给 请 求 者 。DHCPv6 服务 器 使 用 一 个 LEASEQUERY-REPLY 消息 来 响应 ， 其 中 包含 
一 个 客户 机 数据 选项 。 这 个 选项 依次 包括 以 下 选项 : 客户 机 ID、IPv6 地 址 、IPv6 前 缀 和 [269 
客户 机 的 最 后 事务 时 间 。 最 后 一 个 值 是 服务 器 最 后 一 次 询问 客户 机 的 时 间 〈 以 秒 为 单位 )。 
LEASEQUERY-REPLY 消息 也 可 包含 以 下 两 个 选项 : 中 继 数据 和 客户 机 链 路 。 第 一 个 选项 包 
括 中 继 最 后 一 次 发 送 的 相关 查询 的 数据 ， 第 二 个 选项 指出 特定 客户 机 拥有 一 个 或 多 个 地 址 绑 
定 的 链 路 。 再 次 指出 ， 这 个 信息 可 用 于 请 求 者 希望 的 任何 目的 。 

租约 查询 的 扩展 称 为 大 批量 租约 查询 ( BL) [RFC5460][ID4LQ]， 它 可 以 同时 查询 多 个 绑 
EKZ, IEH TCP/IP 而 不 是 UDP/IP， 并 支持 更 大 范围 的 查询 类 型 。BL 被 设计 为 一 种 获得 
绑 定 信 息 的 特定 服务 ， 它 实际 上 不 是 传统 DHCP 的 一 部 分 。 因 此 ， 客 户 机 可 能 希望 不 使 用 - 
BL 而 获得 常规 配置 信息 。BL 的 一 个 特殊 用 途 表 现在 DHCP 用 于 前 级 委托 时 。 在 这 种 情况 下 ， 
最 常见 的 是 一 台 路 由 器 作为 一 个 DHCP-PD 客户 机 使 用 。 它 获得 一 个 前 级 ， 并 从 该 前 缀 代表 
的 一 个 地 址 范围 中 获得 一 个 地 址 ， 以 分 配给 传统 的 DHCP 客户 机 。 但 是 ， 如 果 一 台 路 由 器 出 
现 故 障 或 重新 启动 ， 它 可 能 会 丢失 这 个 前 缀 信息 ， 并 在 一 段 时 间 内 难以 恢复 ， 这 是 因为 传统 
的 租约 查询 机 制 需 要 绑 定 一 个 用 于 查询 的 标识 符 。 通 过 扩展 一 组 可 能 的 查询 类 型 ，BL 有 助 
于 缓解 这 种 以 及 其 他 情况 。 

BL 提供 了 对 基本 租约 查询 的 几 个 扩展 。 首 先 ， 它 使 用 TCP/IP (用 于 IPv6 的 端口 547 和 
用 于 IPv4 的 端口 67 ) 而 不 是 UDP/IP。 这 种 改变 使 一 次 查询 可 获得 大 量 查询 信息 ， 这 在 检索 
大 量 委托 前 级 时 是 必要 的 。BL 也 提供 了 一 个 中 继 标 识 符 选项 ， 人 允许 查询 者 更 容易 地 识别 查 
i], BL 查询 可 基于 中 继 标 识 符 、 链 路 地 址 (网 段 ) 或 中 继 ID. 

DHCPv6 中 继 ID 选项 和 DHCPv4 中 继 ID 子 选 项 [ID4RI] 可 能 包括 一 个 用 于 标识 中 继 代 
理 的 DUID。 中 继 可 在 自己 转发 的 消息 中 插入 这 个 选项 ， 服 务 器 可 用 它 关联 自己 接收 的 由 特定 
中 继 提供 的 绑 定 。BL 支持 基于 地 址 和 DUID 的 查询 (定义 在 [RFC5007] 和 [RFC4388] 中 )， 也 
支持 基于 中 继 ID 、 链 路 地 址 和 远程 ID 的 查询 。 这 些 新 查询 只 被 基于 TCP/IP 并 支持 BL 的 服 
务 器 所 支持 。 相 反 ，BL 服务 器 仅 支 持 LEASEQUERY 消息 ， 而 不 是 整套 的 普通 DHCP 消息 。 

BL 通过 LEASEQUERY-DATA 和 LEASEQUERY-DONE 消息 扩展 基本 的 租约 查询 机 制 。 
当 一 个 查询 被 成 功 响 应 时 ， 一 台 服 务 器 首先 返回 一 个 LEASEQUERY-REPLY 消息 。 如 果 附 
加 信息 是 可 用 的 ， 那 么 它 包括 一 组 LEASEQUERY-DATA 消息 ， 每 个 消息 对 应 一 个 绑 定 ， 并 
通过 一 个 LEASEQUERY-DONE 消息 来 完成 设置 。 属 于 相同 绑 定 组 的 所 有 消息 共享 相同 的 事 
务 ID ， 每 个 相同 值 由 初始 的 LEASEQUERY REQUEST 消息 提供 。 


6.2.6.5 第 2 层 中 继 代 理 
在 一 些 网 络 环境 中 ,第 2 层 设 备 (例如 交换 机 、 网 桥 等 ) 更 靠近 端 系统 ， 它 们 会 中 继 和 
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处 理 DHCP 请 求 。 这 些 第 2 层 设 备 没 有 完整 的 TCP/IP 协议 栈 ， 并 且 不 使 用 IP 进行 寻 址 。 因 
此 ， 它 们 不 能 作为 传统 的 中 继 代理 。 为 了 解决 这 个 问题 ，[IDL2RA] 和 [RFC6221] 分 别针 对 
IPv4 和 IPv6 规定 了 第 2 “EA” DHCP PÆRE (LDRA) 如 何 工作 。 当 针对 中 继 行为 
时 ， 接 口 被 标记 为 面向 客户 或 面向 网 络 ， 以 及 可 信 或 不 可 信 。 面 向 网 络 的 接口 在 拓扑 结构 上 
更 接近 DHCP 服务 器 ， 可 信 的 接口 是 那些 假设 到 达 的 分 组 不 存在 欺骗 的 接口 。 

IPv4 LDRA 的 首要 问题 是 如 何 处 理 DHCP 的 giaddr 字段 ， 以 及 在 LDRA 本 身 没有 卫 层 
信息 时 插 人 一 个 RAIO。[IDL2RA] 推荐 的 方法 是 : LDRA 在 客户 机 接收 的 DHCP 请 求 中 插 
À RAIO, 但 不 填写 giaddr 字段 。DHCP 消息 以 广播 方式 发 送 给 一 个 或 多 个 DHCP 服务 器 ， 
以 及 其 他 处 于 接收 状态 的 LDRA。 这 种 消息 一 直 被 洪 泛 ( 即 在 所 有 接口 上 发 送 ， 除 了 获得 该 
消息 的 接口 )， 直 到 被 一 个 不 可 信 的 接口 接收 。 当 LDRA 接收 到 一 个 包含 RAIO 的 这 种 消息 ， 
它 不 会 添加 其 他 的 同类 选项 ， 但 会 继续 执行 洪 泛 。 通 过 广播 发 送 的 响应 (例如 DHCPOFFER 
消息 ) 可 能 被 LDRA 拦截 ， 这 时 需要 剥离 RAIO 并 使 用 其 中 的 信息 ， 以 便 将 响应 发 送 给 发 出 
请 求 的 客户 机 。 很 多 LDRA 也 拦截 单 播 的 DHCP 流量 。 在 这 些 情 况 下 ， 创 建 或 剥离 RAIO 
也 是 必要 的 。 注 意 ， 兼 容 的 DHCP 服务 器 必须 支持 处 理 和 返回 这 样 的 DHCP 消息 : 无 论 是 
用 单 播发 送 还 是 广播 发 送 ， 其 包含 的 RAIO 中 没有 有 效 的 giaddr 字段 。 

IPv6 的 LDRA 通过 创建 RELAY-FORW 和 了 RELAY-REPL 消息 处 理 DHCPv6 流 量 。 面 
向 客户 的 接口 将 会 丢弃 接收 到 的 ADVERTISE, REPLY, RECONFIGURE 和 RELAY-REPL 
消息 。 另 外 ， 不 可 信 的 面向 客户 的 接口 也 会 出 于 安全 原因 丢弃 接收 到 的 RELAY-FORW 消 
息 。RELAY-FORW 消息 包含 标识 面向 客户 接口 的 选项 ( 即 链 路 地 址 字段 、 对 等 方 地 址 字段 
和 接口 ID 选项 )。 链 路 地 址 字段 设置 为 0， 对 等 方 地 址 字段 设置 为 客户 机 IP 地 址 ， 接 口 ID 
选项 设置 为 LDRA 中 配置 的 值 。 当 接收 到 一 个 链 路 地 址 字段 为 0 的 RELAY-REPL 消息 时 ， 
LDRA 解 封 所 包含 的 信息 ， 并 将 其 发 送 到 由 接口 ID 选项 (由 服务 器 提供 ) 指定 的 客户 机 接 
口 。 面 向 客户 的 接口 修改 接收 的 RELAY-FORW 消息 的 跳 步 数 。 面 向 网 络 的 接口 将 会 丢弃 接 
收 的 除 RELAY-REPL 之 外 的 消息 。 


6.2.7 DHCP 认证 


虽然 我 们 通常 在 每 章 末 尾 (正如 我 们 在 本 章 中 所 做 ) 讨论 各 种 安全 漏洞 ， 但 在 这 里 提 一 
下 DHCP 的 安全 问题 是 值得 的 。 显 而 易 见 ， 如 果 DACP 的 顺利 运行 被 干扰 ， 主 机 很 可 能 配 
置 为 错误 的 信息 ， 并 可 能 导致 严重 
的 服务 中 断 。 不 幸 的 是 ， 正 如 我 们 
已 讨论 过 的 那样 ，DHCP 并 没有 提 
供 安 全 保障 ， 因 此 可 能 建立 一 些 未 
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授权 的 DHCP 客户 机 或 服务 器 ， 无 (64 位 ,基于 RDM ) 

论 是 有 意 的 还 是 无 意 的 ， 这 可 能 严 

重 破坏 一 个 网 络 的 其 他 功能 。 认证 信息 
为 了 缓解 这 些 问 题 ，[RFC3118] (可 变 ， 基 于 协议 ) 





规定 了 一 种 认证 DHCP 消息 的 方法 。 

它 定义 了 一 个 DHCP 选项 ， 即 认证 图 6-22 DHCP 认证 选项 包括 重 放 检测 ， 可 使 用 不 同方 法 

选项 ， 采 用 如 图 6-22 所 示 的 格式 。 进行 认证 。 在 2001 年 制定 规范 时 ， 这 个 选项 没有 
认证 选项 的 目的 是 确定 DHCP 像 今天 这 样 广泛 使 用 
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消息 是 否 来 自 一 个 授权 的 发 送 方 。 代 码 字段 设置 为 90， 长 度 字段 给 出 选项 中 的 字 节 数 (不 包 
括 代 码 或 长 度 字 段 )。 如 果 协 议和 算法 字段 值 为 0， 认 证 信息 字段 保存 一 个 简单 的 共享 配置 
令 牌 。 只 要 客户 机 和 服务 器 的 配置 令 牌 匹配 ， 相 应 的 消息 可 以 接收 。 例 如 ， 它 可 用 于 保存 一 
个 密码 或 类 似 的 文本 字符 串 ， 但 这 种 流量 可 能 被 攻击 者 截获 ， 因 此 这 种 方法 并 不 很 安全 。 但 
是 ， 它 可 能 有 助 于 抵御 偶然 的 DHCP 问题 。 

一 种 比较 安全 的 方法 称 为 延期 认证 ， 具 体 看 协议 和 算法 字段 是 否 设置 为 1。 在 这 种 情况 
下 ， 客 户 机 的 DHCPDISCOVER 或 DHCPINFORM 消息 中 包含 一 个 认证 选项 ， 并 且 服 务 器 
在 DHCPOFFER 和 DHCPACK 消息 中 包含 响应 的 认证 信息 。 这 个 认证 信息 中 包括 一 个 消息 
认证 码 (MAC ; 见 第 18 章 )， 它 提供 对 发 送 方 的 认证 和 消息 内 容 完整 性 的 检验 。 假 设 服务 器 
和 客户 机 有 一 个 共享 的 密 钥 ，MAC 可 确保 客户 机 被 服务 器 信任 ， 反 之 亦 然 。 它 也 用 于 确保 
客户 机 和 服务 器 之 间 交 换 的 DHCP 消息 没有 被 修改 ,或 是 由 早期 DHCP 消息 重 放 而 来 。 重 
放 检 测 方法 (RDM) 由 RDM 字段 值 来 确定 。 如 果 RDM 设置 为 0， 重 放 检 测字 段 包 含 一 个 单 
向 递增 的 值 (例如 时 间 戳 )。 检 测 接收 的 消息 以 确保 该 值 总 是 增加 。 如 果 这 个 值 没有 增加 ， 很 
可 能 是 对 一 个 早期 DHCP 消息 的 重 放 (捕获 、 存 储 并 在 此 后 重新 发 送 )。 我 们 可 以 想象 ， 在 
数据 包 重 新 发 送 的 情况 下 ， 重 放 检 测字 段 中 的 值 不 会 增加 。 但 是 ， 在 一 个 局 域 网 ( DHCP 普 
遍 用 于 其 中 ) 中 也 可 能 无 法 说 明 问 题 ， 这 是 因为 DHCP 客户 机 和 服务 器 之 间 通 常 只 经 过 一 跳 
路 由 。 

DHCP 认证 没有 广泛 使 用 (至少) 有 两 个 原因 。 第 一 ， 这 种 方法 需要 在 DHCP 服务 器 和 
每 个 需要 认证 的 客户 机 之 间 分 发 共享 密 钥 。 第 二 ， 认 证 选项 的 定义 出 现在 DHCP 已 广泛 使 用 
之 后 。 尽 管 如 此 ，[RFC4030] 建立 在 这 个 规范 之 上 ， 以 帮助 DHCP 消息 通过 中 继 代理 安全 转 
Ke (UL 6.2.6 节 )。 


6.2.8 重新 配置 扩展 


在 普通 操作 中 ，DHCP 客户 机 启动 对 地 址 绑 定 的 更 新 。[RFC3203] 定义 了 重新 配置 扩 
展 和 相关 的 DHCPFORCERENEW 消息 。 这 个 扩展 允许 服务 器 引发 一 个 客户 机 改变 更 新 状 
态 ， 并 通过 别 的 普通 操作 (EI DHCPREQUEST) 尝试 更 新 租约 。 一 台 不 希望 更 新 租约 的 服务 
器 可 能 响应 一 个 DHCPNAK ， 导 致 客户 机 重新 启动 为 INIT 状态 。 这 人 台 客 户 机 稍 后 使 用 一 个 
DHCPDISCOVER 消息 重新 开始 。 

这 个 扩展 的 目的 是 当 网 络 中 出 现 一 些 明 显 的 状态 改变 时 ， 使 客户 端 能 重新 建立 一 个 地 址 
或 丢弃 自己 的 地 址 。 例 如 ， 如 果 网 络 在 管理 中 关闭 或 重新 编号 ， 这 种 情况 很 可 能 会 发 生 。 由 
于 这 种 消息 经 常 被 DoS 攻击 所 利用 ， 因 此 它 必 须 通 过 DHCP 认证 加 以 验证 。 由 于 DHCP iA 
证 没有 得 到 广泛 使 用 ， 因 此 重新 配置 扩展 同样 没有 流行 起 来 。 


6.2.9 快速 确认 


DHCP 快速 确认 选项 [RFC4039] 允许 一 台 DHCP 服务 器 通过 一 个 DHCPACK 来 响应 
DHCPDISCOVER 消息 ， 从 而 有 效 跳 过 DHCPREQUEST 消息 ， 并 最 终 使 用 两 消息 交换 
来 代替 四 消息 交换 。 这 个 选项 的 设计 目的 是 快速 配置 可 能 频繁 改变 其 网 络 接 人 点 的 主机 
(例如 移动 主机 )。 当 仅 有 一 台 可 用 的 DHCP 服务 器 并 且 地 址 充足 时 ， 我 们 可 以 不 关注 这 
个 选项 。 

要 使 用 快速 确认 ， 客 户 机 可 在 DHCPDISCOVER 消息 中 包含 该 选项 ， 但 在 任何 其 他 消 
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息 中 不 能 包含 该 选项 。 同 样 ， 服 务 器 仅 在 DHCPACK 消息 中 使 用 该 选项 。 当 一 台 服 务 器 使 用 
该 选项 来 响应 时 ， 接 收 消息 的 客户 机 知道 该 返回 地 址 可 立即 使 用 。 如 果 后 来 确定 该 地 址 已 用 
于 另 一 个 系统 (例如 通过 ARP)， 客 户 机 发 送 一 个 DHCPDECLINE 消息 ， 并 放弃 该 地 址 。 客 
户 机 也 可 能 通过 一 个 DHCPRELEASE 消息 自愿 放弃 接收 到 的 地 址 。 


6.2.10 位置 信息 (LCI 和 LoST ) 


在 某 些 情况 下 ， 将 主机 配置 为 知道 自己 的 位 置 是 有 用 的 。 这 样 的 信息 可 编码 使 用 ， 例 如 
纬度 、 经 度 和 海拔 高 度 。IETEF 的 一 个 众所周知 的 成 果 是 Geoconf (“ 地 理 配 置 ”) [RFC6225], 
[RFC6225] 规定 了 如 何 使 用 GeoConf ( 123 ) 和 GeoLoc ( 144 ) 的 DHCP 选项 ， 为 客户 机 提供 
这 种 地 理 空间 位 置 配 置信 息 (LCI)。 地 理 空间 LCI 不 仅 包 括 纬度 、 经 度 和 高 度 坐标 ， 也 为 每 
个 信息 提供 分 辩 率 指标 。LCI 可 用 于 一 系列 目的 ， 包括 紧急 服务 。 如 果 一 个 呼叫 者 使 用 I 人 P 电 
话 请 求 紧急 援助 ，LCI 可 指示 发 生 紧急 情况 的 位 置 。 

尽管 刚 提 到 的 物理 位 置信 息 对 找到 特定 的 个 人 或 系统 是 有 用 的 ,但 有 时 知道 一 个 实体 的 
市 政 位 置 也 是 重要 的 。 市 政 位 置 根据 行政 地 理 表示 位 置 ， 例 如 国家 、 城 市 、 区 、 街 道 ， 以 及 
其 他 类 似 的 参数 。 市 政 位 置信 息 可 通过 DHCP 以 物理 位 置 所 采用 的 方式 提供 ， 使 用 的 LCI 
结构 与 地 理 空间 LCI 中 使 用 的 一 样 。[RFC4776] 定义 了 携带 市 政 位 置 的 GEOCONF_CIVIC 
(99) 选项 。 这 种 格式 的 LCI 比 地 理 空间 信息 更 麻烦 ， 这 是 因为 各 个 国家 在 行政 地 理 上 命名 
位 置 的 方法 不 同 。 由 于 这 种 名 称 除 了 需要 DHCP 常用 的 英语 、ASCII 语言 和 字符 集 外 ， 可 能 
还 需要 其 他 语言 和 字符 集 的 支持 ， 这 会 带 来 额外 的 复杂 性 。 不 仅 是 DHCP 方面 ， 这 里 还 存 
在 位 置 的 隐私 问题 。IETF 在 Geopriv 框架 中 讨论 了 这 个 问题 。 例 如 ， 参 见 [RFC3693] 了 解 
更 多 信息 。 

一 个 可 供 选 择 的 高 层 协议 称 为 启用 HTTP 的 位 置 投递 (HELD) 协议 [RFC5985]， 它 可 用 
于 提供 位 置信 息 。 代 蔡 在 DACP 消息 中 直接 编码 LCI， 而 是 采用 DHCP 选项 OPTION_V4_ 
ACCESS_DOMAIN (213 ) 和 OPTION V6 ACCESS DOMAIN (57) 分 别 为 IPv4 和 IPv6 提 
供 一 台 HELD 服务 器 的 FQDN [RFC5986]. 

当 一 台 主 机 知道 自己 的 位 置 时 ， 它 可 能 需要 使 用 该 位 置 的 相关 服务 (例如 位 置 最 近 的 医 
Be). IETF 的 位 置 到 服务 转换 ( LoST) 框架 [RFC5222] 通过 一 个 使 用 位 置 相关 URI 访问 的 应 
用 层 协 议 来 实现 上 述 功能 ,DHCP 选项 OPTION_V4_LOST (137) 和 OPTION V6 LOST(51) 
为 一 个 FQDN 提供 可 变 长 度 的 编码 ，FQDN 分 别 为 DHCPv4 和 DHCPv6 指定 一 台 LosT 服务 
器 的 名 称 [RFC5223]。 这 个 编码 与 DNS 的 域名 编码 采用 相同 格式 ( 见 第 11 Bt). 


6.2.11 移动 和 切换 信息 (MoS 和 ANDSF ) 


随 着 使 用 移动 计算 机 和 智能 手机 通过 蜂窝 技术 访问 Internet 的 用 户 逐 渐 增 多 ， 定义 了 有 
关 蜂 窝 配 置 和 不 同 无 线 网 络 之 间 切 换 的 框架 和 相关 DHCP 选项。 目前 ， 存 在 两 套 有 关 该 信息 
的 DHCP 选项 : IEEE 802.21 移动 服务 (MoS) 发 现 ， 以 及 接 入 网 发 现 和 选择 功能 (ANDSF)。 
后 一 个 框架 已 被 3GPP (第 三 代 合作 伙伴 计划 ) 标准 化 ，3GPP 是 负责 建立 蜂窝 数据 通信 标准 
的 组 织 之 一 。 

IEEE 802.21 标准 [802.21-2008] 规定 了 一 个 不 同类 型 网 络 之 间 的 介质 无 关切 换 (MIH) 的 
框架 ， 包 括 那些 由 IEEE ( 802.3, 802.11, 802.16), 3GPP 和 3GPP2 定义 的 类 型 。[RFC5677] 
中 提供 了 IETF 背景 下 设计 的 这 种 框架 。MoS 提供 了 3 种 类 型 的 服务 : 信息 服务 、 命 令 服务 


ŽRE: DHCP 和 自动 配置 191 


和 事件 服务 。 粗 略 地 说 ， 这 些 服务 提供 了 有 关 可 用 网 络 、 控 制 链 路 参数 功能 和 链 路 状态 变化 
通知 的 信息 。MoS RIL DHCP 选项 [RFC5678] 为 移动 节点 获得 地 址 或 域名 提供 了 一 种 手段 ， 
无 论 提供 这 些 服务 的 服务 器 使 用 DHCPv4 还 是 DHCPv6。 对 于 IPv4, OPTION-IPv4_Address- 


MoS 选项 (139) 包含 一 个 子 选项 的 向 量 ， 其 中 包含 提供 每 种 服务 的 服务 器 的 全 地 址 。. 


OPTION-IPv4_FQDN-MoS 选项 (140) 的 一 个 子 选项 为 每 种 服务 的 服务 器 提供 了 一 个 FQDN 
向 量 。 其 他 类 似 选项 有 OPTION-IPv6 Address-MoS (54) 和 OPTION-IPv6 FQDN (55), € 
们 为 IPv6 提供 了 同等 功能 。 

基于 3GPP 的 ANDSF 规范 ，[RFC6153] 定义 了 携带 ANDSF 信息 的 DHCPv4 和 DHCPv6 
选项 。 特 别 是 ， 它 定义 了 移动 设备 发 现 ANDSF 服务 器 地 址 的 选项 。ANDSF 服务 器 由 蜂窝 基 
础 设施 运营 商 来 配置 ， 并 可 能 保存 多 种 传输 网 络 (例如 同时 使 用 3G 和 Wi-Fi) 的 可 用 性 和 访 
问 策略 等 信息 。 

ANDSF IPv4 地 址 选项 (142) 包含 一 个 ANDSF 服务 器 的 IPv4 地 址 向 量 。 这 些 地 址 按 
优先 顺序 (第 一 个 是 最 合适 的 ) 提供 。ANDSF IPv6 地 址 选项 (143) 包含 一 个 ANDSE 服务 
器 的 IPv6 地 址 向 量 。 要 使 用 DHCPv4 请 求 ANDSF 信息 ,移动 节 点 可 在 参数 请 求 列表 中 包括 
ANDSF IPv4 地 址 选项 。 要 使 用 DHCPv6 请 求 ANDSF 信息 ， 客 户 机 可 在 选项 请 求 选项 (ORO) 
中 包含 ANDSF IPv6 地 址 选项 ( 见 [RFC3315] 的 22.7 节 )。 


6.2.12 DHCP IRR 


DHCP“ 嗅 探 ” 是 某 些 交换 机 厂商 在 其 产品 中 提供 的 一 种 能 力 ， 可 用 于 检查 DHCP 消息 
内 容 ， 以 确保 只 有 访问 控制 列表 中 列 出 的 地 址 才 可 交换 DHCP 流量 。 这 样 有 助 于 防止 两 个 
潜在 的 问题 。 首 先 ， 将 一 个 “欺骗 性 ”DHCP 服务 器 的 危害 限制 在 一 定 范围 内 ， 这 是 因为 其 
他 主机 无 法 接收 到 它 提供 的 DHCP 地 址 。 另 外 ， 这 项 技术 可 限制 一 组 特定 MAC 地 址 的 分 
配 。 虽 然 该 技术 提供 了 一 些 保护 ， 但 是 通过 操作 系统 提供 的 命令 ， 在 一 个 系统 中 很 容易 改变 
MAC 地 址 ， 因 此 这 种 技术 只 能 提供 有 限 的 保护 。 


6.3 无 状态 地 址 自动 配置 


大 多 数 路 由 器 通过 手动 配置 地 址 ， 主 机 既 可 手动 配置 地 址 ， 也 可 使 用 一 种 如 DHCP 的 分 
配 协议 或 某 种 算法 来 自动 配置 地 址 。 这 里 存在 两 种 形式 的 自动 配置 ， 它 们 取决 于 需要 生成 什 
人 么 类 型 的 地 址 。 对 于 只 用 于 一 条 链 路 的 地 址 〈 链 路 本 地 地 址 )， 一 人 台 主 机 只 需 找 到 一 些 在 链 路 
上 未 使 用 的 合适 地 址 。 但 是 ， 对 于 要 用 于 全 球 性 连接 的 地 址 ， 这 类 地 址 的 某 些 部 分 通常 必须 
被 管理 。IPv4 和 IPv6 都 有 用 于 链 路 本 地 地 址 自动 配置 的 机 制 ， 一 台 主 机 基本 不 需要 协助 就 
可 以 决定 自己 的 地 址 。 这 就 是 所 谓 的 无 状态 地 址 自动 配置 (SLAAC)。 


6.3.1 IPv4 链 路 本 地 地 址 的 动态 配置 


在 一 台 主 机 没有 任何 手工 配置 的 地 址 ， 并 且 所 在 网 络 没有 DHCP 服务 器 的 情况 下 ， 基 
于 IP 的 通信 和 是 不 可 能 发 生 的 ， 除 非 主 机 使 用 某 种 方式 生成 IP 地 址 。[RFC3927] 描述 了 一 种 
机 制 ， 主 机 通过 该 机 制 可 自动 从 链 路 本 地 范围 169.254.1.1 至 169.254.254.254 使 用 16 位 子 网 
#873 255.255.0.0 生成 自己 的 IPv4 地 址 ( 见 [RFC5735])。 这 种 方法 称 为 链 路 本 地 地 址 的 动态 
配置 或 自动 专用 IP 寻 址 (APIPA)。 从 本 质 上 来 说 ， 就 是 一 台 主 机 从 一 个 范围 中 随机 选择 一 
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个 地 址 ， 并 检查 该 地 址 是 否 已 在 本 子 网 中 被 其 他 系统 使 用 。 这 种 检查 通过 IPv4 ACD 来 实现 
( 见 第 4 章 )。 


6.3.2” 链 路 本 地 地 址 的 1Pv6 SLAAC 


IPv6 SLAAC 的 目标 是 允许 节点 自动 (和 自主 ) 分 配 链 路 本 地 IPv6 地 址 。[RFC4862] 中 
描述 了 IPv6 SLAAC。 它 包括 3 个 主要 步骤 : 获得 一 个 链 路 本 地 地 址 ， 使 用 无 状态 自动 配置 
获取 全 球 地 址 ， 检 测 链 路 本 地 地 址 是 否 已 在 链 路 中 使 用 。 无 状态 自动 配置 可 用 于 没有 路 由 器 
的 环境 ， 在 这 种 情况 下 只 分 配 链 路 本 地 地 址 。 当 路 由 器 存在 时 ， 由 一 个 路 由 器 通告 的 前 级 和 
本 地 产生 的 信息 组 合成 一 个 全 球 地 址 。SLAAC 也 可 结合 DHCPv6 (或 手动 分 配 地 址 ) 使 用 ， 
以 允许 一 台 主 机 获得 除 自己 地 址 外 的 其 他 信息 ( 称 为 “无 状态 ”DHCPv6 )。 当 网 络 采用 有 状 
态 或 无 状态 DHCPv6 配置 时 ,执行 SLAAC 的 主机 可 用 于 同一 网 络 中 。 在 通常 情况 下 ， 有 状 
态 DHCPv6 用 于 需要 为 主机 更 精确 分 配 地 址 时 ， 但 无 状态 DHCPv6 和 SLAAC 结合 是 最 常见 
的 部 署 选 择 。 

在 IPv6 中 ,临时 (或 乐观 ) 链 路 本 地 地 址 由 [RFC4291] 和 [RFC4941] 规定 的 过 程 来 选 
择 。 它 们 只 用 于 具有 组 播 能 力 的 网 络 ， 并 在 建立 时 分 配 了 极 大 的 首选 和 有 效 生命 周期 。 为 
了 形成 数字 化 的 地 址 ， 在 熟知 的 链 路 本 地 前 绥 fe80::0 (适当 长 度 ) 之 后 附加 了 一 个 唯一 的 编 
号 。 这 是 通过 将 地 址 中 最 右边 的 和 N 位 设 为 N 位 数字 ， 最 左边 的 10 位 设 为 10 位 链 路 本 地 前 
级 1111111010， 并 且 其 余 位 设 为 0 来 实现 的 。 生 成 的 地 址 设置 为 临时 (或 乐观 ) 状态 ， 并 检 
查 该 地 址 是 否 重复 ( 见 下 一 节 )。 


6.3.2.1 IPv6 重复 地 址 检测 (DAD) ; 

IPv6 DAD 使 用 ICMPv6 邻居 请 求 和 邻居 通告 消息 ( 见 第 8 章 )， 以 确定 一 个 特定 ( 临 
时 或 乐观 ) IPv6 地 址 是 否 已 在 连接 链 路 上 使 用 。 本 次 讨论 只 针对 临时 地 址 ， 但 DAD 也 适用 
于 乐观 地 址 。[RFC4862] 中 定义 了 DAD， 并 建议 在 为 一 个 接口 分 配 IPv6 地 址 时 使 用 ， 无 论 
手动 分 配 还 是 自动 配置 或 DHCPv6 分 配 。 如 果 发 现 地 址 重复 ， 将 不 使 用 该 临时 地 址 。 如 果 
DAD 成 功 ， 临 时 地 址 转换 为 优先 状态 ， 并 可 不 受 限 制 地 使 用 。 

DAD 按 以 下 步骤 执行 : 一 个 节点 首先 加 入 临时 地 址 的 所 有 节点 组 播 地 址 和 请 求 节点 组 
播 地 址 ( 见 第 9 章 )。 为 了 检查 使 用 的 地 址 是 否 重 复 ， 一 个 节点 发 送 一 个 或 多 个 ICMPvw6 邻居 
请 求 消息 。 这 些 消 息 的 源 和 目的 IPv6 地 址 分 别 是 未 指定 地 址 和 被 检查 目的 地 址 的 请 求 节点 
地 址 。 目 的 地 址 字段 设置 为 被 检查 的 地 址 (临时 地 址 )。 如 果 在 响应 中 接收 到 一 个 邻居 通告 
消息 ,说 明 DAD 失败 ， 并 放弃 被 检查 的 地 址 。 


注意 加 入 组 播 组 的 结果 之 一 是 发 送 MLD 消息 ( 见 第 9 章 )， 但 其 传输 延迟 了 一 个 
随机 时 间 (根据 [RFC4862] 确定 )， 以 避免 很 多 节点 同时 加 入 所 有 主机 组 (例如 在 
一 次 电源 恢复 后 ) 引起 网 络 拥塞 。 对 于 DAD， 这 些 MLD 消息 用 于 在 必要 时 通知 
MLD 嗅 探 交换 机 转发 组 播 流 量 。 


当 一 个 地 址 未 成 功 完成 DAD 时 ， 任 何 针对 它 的 邻居 请 求 被 视 为 一 种 特殊 情况 ， 说 明 其 
他 主机 有 使 用 相同 地 址 的 意图 。 如 果 接 收 到 这 些 消 息 ， 丢 弃 它 们 ， 放 弃 当 前 的 临时 地 址 ， 并 
EH DAD 失败 。 
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如 果 DAD 失败 ， 通 过 接收 一 个 来 自 其 他 节点 的 邻居 请 求 或 一 个 到 目的 地 址 的 邻居 通告 ， 
说 明 这 个 地 址 未 分 配给 一 个 接口 ， 并 且 不 会 成 为 一 个 首选 地 址 。 如 果 这 个 地 址 是 一 个 基于 由 
本 地 MAC 地 址 导出 的 接口 标识 符 配 置 的 链 路 本 地 地 址 ， 不 可 能 通过 相同 过 程 最 终生 成 一 个 
不 冲突 的 地 址 ， 这 时 应 放弃 使 用 该 地 址 并 要 求 管理 员 输 入 地 址 。 如 果 这 个 地 址 是 基于 不 同形 
式 的 接口 标识 符 ，IPv6 操作 可 能 尝试 使 用 基于 别 的 临时 地 址 的 其 他 地 址 。 


6.3.2.2 ”全球 地 址 的 IPv6 SLAAC 

在 一 个 节点 已 获得 一 个 链 路 本 地 地 址 后 ， 它 可 能 需要 一 个 或 多 个 全 球 地 址 。 全 球 地 址 
的 形成 过 程 类 似 于 链 路 本 地 SLAAC, 但 需要 使 用 一 个 由 路 由 器 提供 的 前 级 。 这 种 前 级 携带 
在 一 个 路 由 器 通告 ( 见 第 8 章 ) 的 前 组 选项 中 ， 并 且 由 一 个 标志 来 表示 这 个 前 级 是 否 用 于 与 
SLAAC 共同 形成 全 球 地 址 。 如 果 是 ， 这 个 前 级 与 接口 标识 符 (如 果 不 采用 隐私 扩展 方式 ， 
它 与 形成 链 路 本 地 地 址 相似 ) 组 合 形成 一 个 全 球 地 址 。 这 种 地 址 的 首选 和 有 效 生 命 周 期 也 由 
前 组 选项 表示 的 信息 来 确定 。 


6.3.2.3 ”例子 

图 6-23 显示 了 一 台 IPv6(Windows Vista/SP1) 主机 使 用 SLAAC 分 配 地 址 时 的 一 
系列 事件 。 这 个 系统 首先 选择 一 个 基于 链 路 本 地 前 缀 fe80::/64 和 一 个 随机 数 的 链 路 本 
地 地 址 。 这 种 方法 会 随 着 时 间 改 变 主 机 地 址 [RFC4941]， 以 加 强 对 用 户 隐 私 的 保护 。 另 
一 种 常见 方法 是 使 用 MAC 地 址 中 的 某 些 位 形成 链 路 本 地 地 址 。 这 时 需要 对 这 个 地 址 
( fe80::fd26:de93:5ab7:405a) 执行 DAD 以 发 现 冲突 。 

图 6-23 显示 了 DAD 操作 ， 主 机 首先 发 送 一 个 NS， 查 看 自己 选 定 的 链 路 本 地 地 址 是 否 
被 使 用 。 它 紧 接着 执行 一 个 RS， 以 确定 如 何 继续 执行 ( 见 图 6-24 ) 。 

图 6-24 中 显示 的 路 由 器 请 求 消息 发 送 到 所 有 路 由 器 组 播 地 址 ( ff02::2 )， 并 使 用 自动 配 
置 的 链 路 本 地 IPv6 地 址 作为 源 地 址 。 这 个 响应 在 RA 中 发 送 到 所 有 系统 组 播 地 址 (fft02::1 )， 
因此 连接 的 所 有 系统 都 可 看 见 ( 见 图 6-25 ) 。 

图 6-25 中 所 示 的 RA 从 路 由 器 的 链 路 本 地 地 址 fe80::204:5aff:fe9f:9e80 发 送 到 所 有 系 
统 组 播 地 址 ff02::1。RA 中 的 标志 字段 可 能 包含 几 个 配置 选项 和 扩展 [RFC5175]， 标 志 字 段 
设置 为 0 表示 该 地 址 在 这 条 链 路 上 不 是 由 DHCPv6 来 “管理 ”。 前 级 选项 表示 这 个 全 球 前 缀 
2001:db8::/64 用 于 这 条 链 路 上 。 这 里 没有 携带 64 位 的 前 缀 长 度 ， 而 是 根据 [RFC4291] PE 
义 的 值 确定 。 与 前 组 选项 相关 的 标志 字段 值 为 0xc0， 表 示 前 级 用 于 链 路 (可 与 路 由 器 一 起 使 
AD) 和 设置 了 自动 标志 ， 这 意味 着 主机 可 用 该 前 级 自动 配置 其 他 地 址 。 它 也 包含 递归 DNS 服 
务 器 (RDNSS) 选项 [RFC6106]， 表 示 可 用 的 DNS 服务 器 地 址 为 2001::db8::1。SLLAO 指出 
路 由 器 MAC 地 址 为 00:04:5a:9f:9e:80。 这 个 信息 可 用 于 任何 节点 填充 自己 的 邻居 高 速 缓存 
(IPv4 ARP 缓存 与 IPv6 中 等 价 ; 邻居 发 现 将 在 第 8 章 中 讨论 )。 

在 客户 机 和 路 由 器 之 间 交 换 邻 居 请 求 和 邻居 通告 消息 后 ， 客 户 机 对 自己 选择 的 新 (全球 ) 
地 址 执行 男 一 个 DAD 操作 LA 6-26 )。 

根据 以 前 收 到 的 路 由 器 通告 中 携带 的 前 级 2001::db8， 客 户 机 选择 了 地 址 2001:db8::fd26: 
de93:5ab7:405a。 这 个 地 址 中 的 低 序 位 采用 的 随机 数 与 配置 其 链 路 本 地 地 址 的 相同 。 因 此 ， 
两 个 地 址 执行 DAD 的 请 求 节点 组 播 地 址 ff02::1:ffb7:405a 是 相同 的 。 在 这 个 地 址 被 检测 为 重 
复 后 ， 客 户 机 分 配 男 一 个 地 址 ， 并 对 它 执行 DAD ( 见 图 6-27 )。 
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slaac.tr - Wireshark 


Type: 133 (Router solicitation) 
Code: 0 


Checksum: Ox4a16 [correct] 

i) TOMPV6 option (Source Mink -Nayer address 
Type: Source link-layer address (1) 
Length: 8 
Link-layer address: 00:13:02:20:b9:18 





图 6-24 ICMPv6 RS 消息 导致 一 台 临 近 的 路 由 器 提供 配置 信息 ， 例 如 它 所 在 网 络 上 的 全 球 网 络 前 绥 


vista-slaac.tr - Wireshark 


Type: 134 Toor AP TASEMENI 
Code: 0 
Checksum: 0x079c [correct] 
Cur hop limit: 64 
a Flags: 0x00 
Pra Not managed 
Not other 
Not Home Agent 
Router preference: medium 
+e. 0.. = NOT Proxied 
Router lifetime: 1000 
Reachable time: 1000 
Retrans timer: 0 
已 TEMPV6 option (Prefix information) 
Type: Prefix information (3) 
Length: 32 
Prefix Length: 64 
Flags: Oxco 
1... wes. = ON-link Flag(L): 
l.. .... = AUTONOMOUS resa ia flagÇa): set 
.00 0000 = Reserved: 0 
valid lifetime: infinity 
Preferred lifetime: infinity 
Reserved 
Prefix: 2001:db8:: 
& ICMPV6 Option (Recursive DNS Server) 
Type: Recursive DNS Server (25) 
Length: 24 
Reserved 
Lifetime: infinity 
Recursive DNS Servers: 2001:db8::1 (2001:db8::1) 
已 ICMPv6 Option (Source link-layer address) 
Type: source link-layer address (1) 
Length: 8 
Link-layer address: 00:04:5a:9f:9e:80 








图 6-25 ICMPv6 RA 消息 提供 了 网 络 中 的 默认 路 由 器 和 全 局 地 址 前 级 的 位 置 以 及 是 否 可 用 的 信息 。 
也 包括 一 个 DNS 服务 器 的 位 置 ， 并 表明 该 路 由 器 是 否 可 像 移动 IPv6 家 乡 代 理 (本 例 中 没有 ) 
那样 发 送 通 告 。 客 户 机 在 配置 操作 中 可 能 使 用 部 分 或 全 部 信息 
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vista-slaac.tr - Wireshark 





N18), Dst 3i332FFtb7740%5a) 
J, Dst: FRO2l:L:FFb7:405a (fF02::L:ffb7:405a) 


Type: 135 (Neighbor solicitation) 

code: 0 

Checksum: 0x9511 [correct] 

Reserved: 0 (should always be zero) 

Target: 2001:db8::fd26:de93:Sab7:405a (2001:db8: :fd26:de93:5ab7:405a) 





图 6-26 对 前 级 2001:db8::/64 导出 的 全 球 地 址 的 DAD ， 作 为 第 一 个 
数据 包 发 送 到 相同 请 求 节 点 的 组 播 地 址 


vista-slaac.tr - Wireshark 











Type: 135 (Neighbor solicitation) 

code: 0 

Checksum: Ox7cde [correct] 

Reserved: 0 (should always be zero) 

Target: 2001:db8: :9cf4:f812:816d:5c97 (2001: db8::9cf4 :f812:816d:5c97) 
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图 6-27 对 地 址 2001:db8::9cf4:f812:816d:5c97 的 DAD 


图 6-27 中 的 DAD 操作 针对 地 址 2001:db8::9cf4:f812:816d:5c97。 这 个 地 址 是 一 个 临时 
IPv6 地 址 ， 出 于 隐私 保护 的 原因 ， 它 的 低 序 位 使 用 一 个 不 同 的 随机 数 来 生成 。 两 个 全 球 地 址 
之 间 的 区 别 是 临时 地 址 的 生命 周期 较 短 。 生 命 周期 是 由 以 下 两 个 值 中 较 小 的 值 计 算得 到 : RA 
中 接收 到 的 前 组 信息 选项 中 包含 的 生命 周期 和 一 对 本 地 默认 的 生命 周期 。 在 Windows Vista 
的 例子 中 ， 上 默认 的 有 效 生命 周期 为 一 星期 ， 而 默认 的 首选 生命 周期 为 一 天 。 当 这 个 消息 已 
成 后 ， 客 户 机 对 自己 的 链 路 本 地 地 址 和 两 个 全 球 地 址 执行 SLAAC。 通 过 这 些 地 址 信息 足以 
进行 本 地 或 全 球 通信 。 临 时 地 址 将 定期 更 改 ， 以 协助 增强 隐私 保护 。 在 不 需要 隐私 保护 的 情 
况 下 ， 可 使 用 以 下 命令 在 Windows 中 禁用 该 功能 : 
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C:\> netsh interface ipv6 set privacy state=disabled 


在 Linux 中 ， 使 用 以 下 命令 启用 临时 地 址 : 


Linux# sysctl -w net.ipv6.conf.all.use_tempaddr=2 


Linux# sysctl -w net.ipv6.conf.default.use_tempaddr=2 
使 用 以 下 命令 禁用 临时 地 址 : 


Linux# sysctl -w net.ipv6.conf.all.use_tempaddr=0 
Linux# sysctl -w net.ipv6.conf.default.use_tempaddr=0 


6.3.2.4 ”无 状态 DHCP 

我 们 已 提 到 DHCP v6 可 用 于 一 种 “无 状态 ”模式 ， 在 这 种 模式 下 ，DHCPv6 服务 器 不 
指定 地 址 (或 保留 任何 一 台 客 户 机 的 状态 )， 但 提供 其 他 配置 信息 。 无 状态 DHCPv6 定义 在 
[RFC3736] 中 ， 并 将 SLAAC 和 DHCPv6 相 结合 。 有 人 认为 这 种 结合 是 一 种 有 吸引 力 的 部 署 
方案 ， 网 络 管理 员 在 部 署 DHCPv4 时 不 必 直 接 关 心地 址 池 。 

在 一 个 无 状态 DHCPv6 部 署 方案 中 ， 假 设 节 点 采用 DHCPv6 之 外 的 方法 获得 自己 的 地 
址 。 因 此 ，DHCPv6 服务 器 不 需要 处 理 定 义 在 表 6-1 中 的 地 址 管理 消息 。 另 外 ， 它 不 需要 处 理 
建立 IA 绑 定 所 需 的 选项 。 这 大 大 简化 了 服务 器 软件 和 配置 工作 。 中 继 代理 的 操作 没有 改变 。 

无 状态 DHCPv6 客户 机 使 用 DHCPv6 的 INFORMATION-REQUEST 消息 请 求 信息 ， 该 
信息 由 服务 器 发 送 的 REPLY 消息 提供 。INFORMATION-REQUEST 消息 包含 一 个 选项 请 求 
选项 ， 给 出 客户 机 想 了 解 的 更 多 信息 的 选项 。INFORMATION-REQUEST 可 能 包含 一 个 客户 
机 标识 符 选 项 ， 它 允许 为 特定 的 客户 机 定制 答案 。 

为 了 实现 标准 的 无 状态 DHCPv6 服 务 器 ， 相 应 系统 必须 实现 以 下 这 些 消 息 : 
INFORMATION-REQUEST、REPLY、RELAY-FORW 和 了 RELAY-REPL。 它 还 必须 实现 以 下 
这 些 选 项 : 选项 请 求 、 状 态 代码 、 服 务 器 标识 符 、 客 户 机 消息 、 服 务 器 消息 和 接口 ID。 最 后 
三 个 选项 在 作为 中 继 代理 时 使 用 。 作 为 一 台 可 用 的 无 状态 DHCPv6 服务 器 ， 其 他 几 个 选项 可 
能 是 必要 的 : DNS 服务 器 、DNS 搜索 列表 和 可 能 的 SIP 服务 器 。 其 他 可 能 有 用 但 不 是 必需 
的 选项 主要 包括 : 优先 级 、 经 历 的 时 间 、 用 户 类 别 、 供 应 商 类 别 、 供 应 商 特定 信息 、 客 户 机 
标识 符 和 认证 。 


6.3.2.5 ”地 址 自动 配置 的 用 途 

IP 地 址 自动 配置 的 用 途 通 常 是 有 限 的 ， 这 是 由 于 路 由 器 可 能 需要 为 同一 网 络 中 的 客户 机 
配置 特定 范围 的 耳 地 址 ， 而 这 台 客 户 机 自动 配置 的 地 址 与 该 范围 不 一 致 。 它 在 IPv4 ( APIPA) 
环境 中 是 好 用 的 ， 这 是 因为 专用 链 路 本 地 前 级 169.254/16 不 能 用 于 路 由 器 中 。 因 此 ， 自 己 分 
配 卫 地 址 的 结果 是 本 地 子 网 访问 可 能 正常 ， 但 Internet 路 由 和 名 称 服务 (DNS) 很 可 能 不 正 
常 。 当 DNS 不 正常 时 ， 大 部 分 常见 Pnternet“ 体 验 ” 无 法 实现 。 因 此 ， 一 台 客 户 机 无 法 获得 一 
个 人 地址 (相对 容易 检测 )， 相 对 于 获得 一 个 实际 不 能 有 效 使 用 的 P 地 址 ， 前 者 通常 更 有 用 。 


注意 其 他 可 能 用 于 链 路 本 地 编 址 的 名 字 服 务 包 括 Bonjour/ZeroConf ( Apple), 
LLMNR 和 NetBIOS ( Microsoft)。 随 着 时 间 推 移 ， 这 些 来 自 不 同 厂商 的 服务 没有 成 
A IETF 标准 ， 在 本 地 环境 中 将 名 称 映射 到 地 址 时 的 行为 有 很 大 差别 。 关 于 DNS 本 
地 替代 者 的 详细 信息 见 第 11 章 。 
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我 们 可 以 禁止 使 用 APIPA， 防止 系统 自己 分 配 一 个 IP 地 址 。 在 Windows 中 ， 这 是 通过 
创建 以 下 注册 表 项 (注册 表 项 是 一 行 ， 这 里 为 了 说 明 而 换 了 行 ) 来 完成 : 


HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\ 
IPAutoconfigurationEnabled 


REG_DWORD 值 可 设置 为 0， 对 所 有 网 络 接口 禁用 APIPA。 在 Linux 中 ， 文 件 /etc/ 
sysconfig/network 可 修改 为 包括 以 下 指令 : 


NOZEROCONF=yes 


这 将 禁止 所 有 网 络 接口 使 用 APIPA。 通 过 修改 每 个 接口 的 配置 文件 〈 例 如 ， 第 一 个 以 太 
网 设备 的 /etc/sysconfig/network-scripts/ifefg-ethO )， 也 可 禁止 特定 接口 使 用 APIPA。 

在 IPv6 SLAAC 的 情况 下 ， 获 得 一 个 全 局 IPv6 地 址 相对 容易 ， 但 一 个 名 称 和 其 地 址 之 
间 的 关系 并 不 安全 ， 从 而 导致 潜在 的 安全 问题 (参见 第 11 章 和 第 18 章 )。 因 此 ， 在 部 署 中 暂 
时 仍 希 望 避 免 使 用 SLAAC。 对 IPv6 全 局 地 址 禁用 SLAAC 有 两 种 方法 。 首 先 ， 在 本 地 路 由 
器 提供 的 路 由 器 通告 消息 的 前 组 选项 中 关闭 “自动 ”标志 (配置 为 不 提供 前 组 选项 ， 如 前 面 
的 例子 中 所 示 )。 另 外 ， 可 通过 本 地 配置 来 避免 客户 机 进行 全 局 地 址 的 自动 配置 。 

在 一 台 Linux 客户 机 中 禁用 SLAAC， 可 使 用 以 下 命令 : 


Linux# sysctl -w net.ipv6.conf.all.autoconf=0 


在 Mac OS 3% FreeBSD 系统 中 禁用 SLAAC (至 少 是 针对 本 地 链 路 地 址 )， 可 使 用 以 下 
命令 : 
FreeBSD# sysctl -w net.inet6.ip6.auto_linklocal=0 


而 Windows 系统 中 的 相应 禁用 命令 为 : 


C:\> netsh 
netsh> interface ipv6 
netsh interface ipv6> set interface {ifname} managedaddress=disabled 


其 中 ，{Ifname} 应 替换 为 相应 接口 的 名 称 (在 这 个 例子 中 是 “Wireless Network 
Connection”)。 注 意 ， 随 着 时 间 推 移 ， 这 些 配置 命令 的 行为 有 时 会 发 生变 化 。 如 果 这 些 变化 
没有 如 预期 那样 执行 ， 请 查看 针对 当前 方法 的 操作 系统 文件 。 


6.4 DHCP 和 DNS 交互 


当 一 台 DHCP 客户 机 获得 一 个 IP 地 址 时 ， 它 接收 的 配置 信息 的 重要 部 分 是 一 台 DNS 
服务 器 的 I 了 PP 地址。 它 允 许 客户 机 系统 将 DNS 名 称 转换 为 I Pv4 和 /或 IPv6 地 址 ， 该 地 址 是 
进行 传输 层 连接 时 协议 实现 所 需要 的 。 如 果 没 有 DNS 服务 器 或 其 他 方式 将 域名 映射 为 IP 
地 址 ， 大 多 数 用 户 会 发 现 他 们 几乎 难以 访问 互联 网 系统 。 如 果 本 地 DNS 工作 正常 ， 它 将 
Internet 作为 一 个 整体 来 提供 地 址 映射 但 如 果 配 置 正确 ， 也 可 针对 本 地 的 专用 网 络 (如 前 面 
提 到 的 home), 

由 于 本 地 专用 网 络 的 DNS 映射 通常 采用 烦琐 的 手工 管理 ， 因 此 ， 将 指定 DHCP 地 址 与 
相应 地 址 的 DNS 映射 更 新 方法 结合 起 来 将 会 带 来 方便 。 这 可 通过 组 合 DHCP/DNS 服务 器 或 
动态 DNS ( 见 第 11 章 ) 来 实现 。 

组 合 DNS/DHCP 服务 器 (如 Linux dnsmasq 包 ) 是 一 个 服务 器 程序 ， 它 可 配置 为 提供 IP 
地 址 租约 以 及 其 他 信息 ， 也 可 读 取 一 个 DHCPREQUEST 中 的 客户 机 标识 符 或 域名 ， 并 在 使 
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用 DHCPACK 进行 响应 之 前 ， 通 过 “名 称 到 地 址 ”的 绑 定 更 新 内 部 DNS 数据 库 。 这 样 ， 由 
DHCP 客户 机 或 与 相同 DNS 服务 器 交互 的 其 他 系统 发 起 的 任何 后 续 DNS 请 求 ， 能 够 在 客户 
机 名 称 和 新 分 配 的 IP 地 址 之 间 转 换 。 


6.5 ”以太 网 上 的 PPP 


对 于 大 多 数 局 域 网 和 一 些 广域网 连接 ，DHCP 提供 了 最 常用 的 客户 机 系统 配置 方法 。 
对 于 广域网 连接 (例如 DSL)， 常 用 另 一 种 基于 PPP 的 方法 代替 它 。 这 种 方法 涉及 在 以 太 网 
中 携带 PPP， 因 此 称 为 以 大 网 上 的 PPP (PPPoE), PPPoE 用 于 广域网 连接 设备 (例如 DSL 
调制 解 调 器 ) 作为 一 个 交换 机 或 网 桥 而 不 是 使 用 路 由 器 的 情况 下 。PPP 作为 某 些 ISP 建立 连 
接 的 首选 ， 这 是 因为 它 可 提供 比 其 他 配置 选项 (例如 DHCP) 更 细致 的 配置 控制 和 审计 日 
志 。 为 了 提供 Internet 连 接 ， 有 些 
设备 (例如 用 户 PC) 必须 实现 IP 路 
由 和 寻 址 功能 。 图 6-28 显示 了 典型 
的 使 用 情况 。 

该 图 显示 了 一 个 ISP 使 用 DSL 
为 很 多 客户 提供 服务 。DSL 提供 一 
条 点 到 点 的 数字 链 路 ， 它 可 与 一 条 
传统 的 模拟 电话 线 ( 称 为 普通 老式 电 
话 业 务 或 POTS) 同时 工作 。 对 物理 
电话 线 的 同时 使 用 是 通过 频 分 复 用 
来 实现 的 DSL 信息 在 比 POTS 更 


高 的 频率 上 传输 。 当 连接 到 传统 的 
电话 听 简 时 ， 需要 用 一 个 过 滤器 来 图 6-28 为 客户 提供 使 用 PPPoE 的 DSL 服务 的 简化 视图 。 





ISP 


调制 解 调 器 为 PPP 端口 提供 桥接 服 下。 上 


务 ， 该 端口 位 于 ISP 的 接 入 集中 器 DNS RAIER NATHA 


(AC) 中 ， 连 接客 户 的 调制 解 调 器 线 和 ISP 的 网 络 设备 。 调 制 解 调 器 和 AC 也 支持 PPPoE 协 
议 ， 在 这 个 例子 中 ， 该 用 户 选择 将 一 台 家 用 PC 连接 到 DSL 调制 解 调 器 ， 并 使 用 一 个 点 到 点 
的 以 太 网 络 ( 即 仅 使 用 一 根 电缆 的 以 太 网 )。 

在 DSL 调制 解 调 器 与 ISP 成 功 建立 一 条 低层 链 路 后 ，PC 可 以 开始 进行 PPPoE 交换 ， 它 
被 定义 在 信息 文档 [RFC2516] 中 ， 如 图 6-29 所 示 。 

这 个 协议 包括 一 个 发 现 阶段 和 一 个 PPP 会 话 阶段 。 发 现 阶段 涉及 交换 几 个 PPPoE 主动 
RIL (PAD) 消息 : PADI (初始 化 )、PADO (提供 )、PADR (请 求 ) 和 PADS (会 话 确认 )。 
在 这 个 交换 完成 后 ， 由 以 太 网 封装 的 一 次 PPP 会 话 开 始 ， 并 最 终 由 任何 一 方 发 送 PADT ( 终 
止 ) 消息 来 终止 。 如 果 低层 连接 中 断 ， 这 个 会 话 也 会 终止 。PPPoE 消息 使 用 图 6-30 所 示 的 格 
式 ， 并 封装 在 以 太 网 的 有 效 载荷 区 。 

在 图 6-30 中 ，PPPoE 版 本 和 类 型 字段 的 长 度 都 是 4 位 ， 并 包含 当前 PPPoE 版 本 的 值 
0x1。 代 码 字 段 中 包含 PPPoE 消息 类 型 的 提示 ， 如 图 6-30 的 右 下 部 分 所 示 。 会 话 ID 字段 包 
含 值 0x0000 表示 PADI, PADO 和 PADR 消息 ， 并 在 后 续 消息 中 包含 一 个 唯一 的 16 位 数字 。 
在 PPP 会 话 阶 段 会 保持 相同 的 值 。PAD 消息 包含 一 个 或 多 个 标签 ， 它 们 按 TLV 方式 排列 为 
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一 个 16 位 的 TAG_TYPE 字段 ， 随 后 是 一 个 16 位 的 TAG LENGTH 字段 和 一 个 数据 可 变 的 
标签 值 。 表 6-2 给 出 了 TAG TYPE 字段 的 值 和 含义 。 


对 等 方 对 等 方 2 
( 客户 机 ) ( 服务 器 ) 
交换 的 消息 








PADI 


提供 


准备 


关闭 


图 6-29 PPPoE 消息 交换 开始 于 发 现 阶段 及 建立 PPP 会 话 阶段 。 每 个 消息 是 一 个 PAD 消息 。PADI 请 
求 来 自 PPPoE 服务 器 的 响应 。PADO 提供 连接 。PADR 表示 客户 机 可 以 从 多 个 可 能 的 服务 器 
中 做 出 选择 。PADS 从 选中 的 服务 器 向 客户 机 提供 一 个 确认 。 经 过 PAD 交换 ， 一 次 PPP 会 话 
开始 。PPP 会 话 可 由 任何 一 方 发 送 PADT 消息 来 终止 ， 或 在 低层 链 路 出 现 故障 时 关闭 


将 PPPoE 的 版 本 设置 为 0xl 
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Sis ID 
(16 位 , 发 现 阶段 的 值 为 0 ) 





长 度 
(16 位 , 有 效 载荷 的 长 度 ) 





有 效 载荷 ( 可 变 ) 


一 
[PAD 消息 在 有 效 载 荷 区 中 包含 TLV 标签 ] 





PPPoE 以 太 网 类 型 代码 值 
0x8863 ( 发 现 ) 0x09 ( PADI) 
0x8864 ( PPP 会 话 ) 0x07 ( PADO ) 
0x19 ( PADR ) 
0x65 ( PADS ) 
0xA7 ( PADT ) 


0x00 ( PPP 会 话 ) 
图 6-30 PPPoE 消息 携带 在 以 太 网 帧 的 有 效 载 荷 区 。 以 太 网 类 型 字段 在 发 现 阶段 设置 为 0x8863， 而 设 
置 为 0x8864 表示 携带 PPP 会 话 数据 。 对 于 PAD 消息 ， 采 用 TLV 方式 携带 配置 信息 ， 这 类 似 
于 DHCP 选项 。 服 务 器 选择 一 个 PPPoE 会 话 ID， 并 在 PADS 消息 中 传输 
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表 6-2 PPPoE 的 TAG_TYPE 字段 的 值 、 名 称 和 用 途 。PAD 消息 可 能 包含 一 个 或 多 个 标签 


‘a 用 和 
0x0000 表示 没有 更 多 标签 存在 。TAG_LENGTH 必须 为 0 
0x0101 包含 一 个 UTF-8 编码 的 服务 名 称 (HE ISP 使 用 ) 
0x0102 包含 一 个 UTF-8 编码 的 字符 种， 用 于 表示 访问 集中 器 
0x0103 由 客户 机 使 用 的 二 进 制 数据 ， 用 于 匹配 消息 ， 不 能 被 AC 解释 
0x0104 由 AC 使 用 的 二 进 制 数据 ， 用 于 防止 DoS; 由 客户 机 回 显 
0x0105 不 推荐 ; 更 多 细节 见 [RFC2516] 
0x0110 中 继 增 加 该 值 以 转发 PAD 流量 
0x0201 请 求 的 Service-Name 标签 不 能 被 AC 认可 
0x0202 AC 在 执行 请 求 的 操作 时 出 现 一 个 错误 
0x0203 包含 一 个 UTF-8 编码 的 字符 串 ， 用 于 描述 一 个 不 可 恢复 的 错误 


为 了 查看 PPPoE 的 行为 ,我们 可 监控 图 6-28 所 示 的 一 个 家 用 系统 (例如 家 用 PC) 与 一 
台 接 入 集中 器 之 间 的 数据 交换 。 图 6-31 显示 了 发 现 阶段 和 第 一 次 PPP 会 话 数据 包 。 

6-31 显示 了 预期 的 PADI、PADO、PADR 和 PADS 消息 交换 。 每 个 消息 包含 一 个 
值 为 9c3a0000 的 Host-Uniq 标签 。 来 自 集中 器 的 消息 也 包含 一 个 值 为 90084090400368- 
rback37.snfcca 的 AC-Name 标签 。 图 6-32 显示 了 PADS 消息 的 详细 信息 。 

在 图 6-32 F, PADS 消息 表示 为 客户 机 建立 一 次 PPP 会 话 ， 并 使 用 0xecbd 作为 会 话 
ID。AC-Name 标签 仍然 保持 ,表示 使 用 原来 的 AC。 至 此 ， 发现 阶段 已 完成 ， 可 开始 一 次 普 
通 的 PPP Sid ( 见 第 3 章 )。 图 6-33 显示 了 第 一 次 PPP 会 话 的 数据 包 。 

该 图 说 明 PPPoE 交换 中 的 PPP 会 话 阶段 开始 。PPP 会 话 开 始 于 链 路 配置 (PPP LCP), 
这 里 由 客户 机 发 送 一 个 配置 请 求 ( 见 第 3 章 )。 它 表明 客户 机 想 使 用 密码 认证 协议 (一 种 相对 
不 安全 的 方法 ) 向 AC 认证 自己 。 当 认证 交换 已 完成 ， 并 交换 了 各 种 链 路 参数 (例如 MRU), 
IPCP 用 于 获取 和 配置 IP 地址 。 注 意 ， 这 时 可 能 需要 额外 的 配置 信息 (例如 ，ISP 的 DNS fk 
务 器 的 IP 地 址 )， 它 取决 于 ISP 的 配置 ( 即 手工 配置 )。 


6.6 与 系统 配置 相关 的 攻击 


针对 系统 和 网 络 配 置 的 攻击 多 种 多 样 。 从 未 授权 客户 机 或 未 授权 服务 器 对 DHCP 的 干 
扰 ， 到 耗 尽 资源 的 各 种 形式 的 Dos 攻击 ,例如 申请 一 台 服 务 器 可 能 提供 的 所 有 可 能 的 全 地 
址 。 这 些 问 题 很 常见 ， 这 是 由 于 地 址 配置 基于 旧 的 IPv4 协议 ， 其 设计 出 发 点 是 假设 网 络 可 
信 ， 而 到 目前 为 止 新 的 协议 还 很 少 部 署 (安全 部 署 就 更 少见 )。 因 此 ， 无 法 通过 典型 DHCP 
部 署 来 防御 这 些 攻击 ， 虽然 链 路 层 认证 (Bilan, Wi-Fi 网 络 使 用 的 WPA2 ) 有 助 于 限制 连接 
到 一 个 特定 网 络 的 未 授权 客户 机 数量 。 

IETF 致力 于 为 IPv6 邻居 发 现 提供 安全 性 ， 哪 个 邻居 、 什 么 时 间或 是 否 已 部 署 SLAAC， 
这 些 因素 将 直接 影响 网 络 运行 的 安全 性 。[RFC3756] 概括 了 2004 年 以 来 的 信任 及 威胁 假设 ， 
[RFC3971] 定义 了 安全 邻居 发 现 (SEND) 协议 。SEND 将 IPsec ( 见 第 18 章 ) 用 于 邻居 发 现 
数据 包 ， 并 结合 使 用 加 密生 成 的 地 址 (CGA) [RFC3972]。 这 种 地 址 由 密 钥 散 列 函数 而 获得 ， 
所 以 它们 只 能 由 系统 保存 的 适当 关键 信息 生成 。 
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pppoe.tr - Wireshark 


rc: 00:02 ;3bi02:a6ret ys 
@ Destination: 00:00:e1:08:8c:eb (00:00:e1: 


@ Source: 00:02:3b:02:a6:e0 (00:02:3b:02:a6:e0) 


Type: PPPOE Discovery (0x8863) 
2 ARERR ERTS: 
see. = Version: 1 
.... QOO1 = Type: 1 
Code: Active Discovery Session- 
Session ID: Oxecbd 
Payload Length: 45 
S PPPOE Tags 
Host-uniq: 9c3a0000 
AC-Name: 900840904 00368-rback37.snfcca 


00 00 el 08 8c eb 00 3b 02 a a6 l 20 88 @3 L il @ 
ec bd 00 2d 01 01 00 00 01 03 00 04 9c 3a 00 00 
01 02 00 1d 39 30 30 38 34 30 39 30 34 30 30 33 
36 38 2d 72 62 61 63 6b 33 37 2e 73 6e 66 63 63 


+++ 9008 49904003 
68-rback 37.snfcc 
a 
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图 6-32 PPPoE 的 PADS 消息 用 于 确认 客户 机 和 接 人 集中 器 之 间 的 关联 。 这 个 消息 
还 将 会 话 ID 设置 为 0xecbd， 它 用 于 后 续 PPP 会 话 数据 包 中 


pppoe.tr - Wireshark 


& Destination: 00:00:e1: 
Source: 00:02:3b:02: 
Type: PPPOE Session Cox8864) 


0001 .... = Version: 1 
.... 0001 = Type: 1 

Code: Session Data (0x00) 
Session ID: Oxecbd 
Payload Length: 20 


Code: Configuration Request COxO1) 
Identifier: Oxbd 
Length: 18 
Options: (14 bytes) 
Maximum Receive Unit: 1492 
& Authentication protocol: 4 bytes 





Authentication protocol; Password Authentication Protocol (Oxc023) 


Magic number: Ox50b7d7a2 
< D 





图 6-33 PPPoE 会话 的 第 一 个 PPP 消息 是 一 个 配置 请 求 。 以 太 网 类 型 更 改 为 0x8864， 表 示 这 是 一 次 主 
动 的 PPP 会 话 ， 并 且 会 话 ID 设置 为 0xecbd。 在 这 个 例子 中 ，PPP 客户 机 使 用 相对 不 安全 的 


6.7 


密码 认证 协议 进行 身份 认证 


总 结 


主机 或 路 由 器 使 用 Internet 协议 在 Internet 或 专用 网 络 中 运 


jas gu 


运作 


时 需要 一 组 基本 的 配置 信 


息 。 路 由 器 通常 至 少 需要 分 配 寻 址 信息 ， 而 主机 需要 地 址 、 下 一 跳 路 由 器 和 DNS 服务 器 的 
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位 置 。DHCP 可 同时 用 于 IPv4 和 1IPv6, 但 两 者 之 间 不 能 直接 互 操 作 。 通 过 DHCP， 适当 配 
置 的 服务 器 可 向 请 求 的 客户 机 分 配 一 个 或 多 个 地 址 ， 并 让 它们 租用 一 段 时 间 。 如 果 客 户 机 想 
继续 使 用 该 地 址 ， 它 可 更 新 自己 的 租约 。 客 户 机 也 可 通过 DHCP 获得 更 多 信息 ， 例 如 子 网 掩 
码 、 默 认 路 由 器 、 供 应 商 的 特定 配置 信息 、DNS 服务 器 、 家 乡 代理 和 默认 域名 。 当 客户 机 和 
服务 器 位 于 不 同 网 络 中 ， 可 通过 中 继 代 理 使 用 DHCP。 当 使 用 中 继 代 理 时 ， 一 些 DHCP 扩展 
允许 在 中 继 代 理 和 服务 器 之 间 携 带 额 外 信息 。DHCPv6 也 可 用 于 为 一 台 路 由 器 委托 一 个 IPv6 
地 址 空间 范围 。 

一 台 IPv6 主机 通常 使 用 多 个 地 址 。IPv6 客户 机 能 自主 生成 自己 的 链 路 本 地 地 址 ， 这 是 
通过 将 一 个 特定 的 链 路 本 地 IPv6 前 缀 与 其 他 本 地 信息 (例如 从 自己 的 MAC 地 址 中 获得 的 
特殊 位 或 有 助 于 保护 隐私 的 随机 数 ) 相 结 合 来 实现 的 。 要 获得 一 个 全 局 地 址 ， 客 户 机 可 从 
ICMP 路 由 器 通告 消息 或 DHCPvV6 服务 器 获得 一 个 全 球 地 址 前 级。DHCPv6 服务 器 可 工作 在 
“有 状态 ”模式 ， 为 请 求 的 客户 机 提供 IPv6 地 址 租用 ; 它 也 可 工作 在 “无 状态 ”模式 ， 提 供 
地 址 之 外 的 其 他 配置 信息 。 

PPPoE 协议 通过 以 太 网 携带 PPP 消息 以 与 ISP 建立 Internet 连接 ， 特 别 是 那些 使 用 DSL 
提供 服务 的 ISP。 当 使 用 PPPoE 时 ， 用 户 通常 有 一 台 带 以 太 网 端口 的 DSL 调制 解 调 器 ， 该 
端口 就 像 一 个 网 桥 或 交换 机 。PPPoE 首先 交换 一 组 发 现 消息 ， 以 确定 一 个 访问 控制 器 的 身份 ， 
并 建立 一 次 PPP 会 话 。 在 发 现 阶段 完成 后 ，PPP 流量 可 封装 在 以 太 网 帧 中 ， 并 携带 不 同 协议 
(例如 IP)， 这 可 能 持续 到 PPPoE 会 话 终止 (不管 是 有 意 为 之 还 是 因为 低层 链 路 断 开 )。 当 使 
用 PPPoE 时 ，PPP 协议 配置 功能 ， 例 如 IPCP (在 第 3 章 中 讨论 )， 最 终 负 责 为 客户 机 分 配 IP 
地 址 。 

用 于 IPv6 无 状态 自动 配置 的 DHCP 和 ICMPv6 路 由 器 通告 ， 部 署 时 通常 没有 使 用 安全 
机 制 。 由 于 这 个 原因 ， 它 们 很 容易 受到 一 些 攻击 ， 包 括 未 授权 客户 机 的 网 络 访问 、 生 成 伪造 
地 址 的 欺骗 性 DHCP 服务 器 和 各 种 形式 的 拒绝 服务 ， 以 及 客户 机 请 求 的 地 址 超过 可 用 地 址 的 
资源 耗 尽 攻击 等 。 大 多 数 攻击 可 通过 为 DHCP 增加 安全 机 制 来 缓解 ， 例 如 DHCP 认证 和 最 
近 出 现 的 SEND 协议 。 但 是 ， 它 们 目前 仍 很 少 使 用 。 


6.8 参考 文献 
[802.21-2008] “IEEE Standard for Local and Metropolitan Area Networks—Part 
21: Media Independent Handover Services,” Nov. 2008. 


[F07] R. Faas, “Hands On: Configuring Apple’s NetBoot Service, Part 1,” Comput- 
erworld, Sept. 2007. 


[GC89] C. Gray and D. Cheriton, “Leases: An Efficient Fault-Tolerant Mechanism 
for Distributed File Cache Consistency,” Proc. ACM Symposium on Operating Sys- 
tem Principles (SOSP), 1989. 


[[ARP] http://www.iana.org/assignments/arp-parameters 
[IBDP] http://www.iana.org/assignments/bootp-dhcp-parameters 


[ID4LQ] K. Kinnear, B. Volz, M. Stapp, D. Rao, B. Joshi, N. Russell, and P. Kurapati, 
“Bulk DHCP v4 Lease Query,” Internet draft-ietf-dhc-dhcpv4-bulk-leasequery, 
work in progress, Apr. 2011. 


[ID4R]] B. Joshi, R. Rao, and M. Stapp, “The DHCP v4 Relay Agent Identifier Sub- 
option,” Internet draft-ietf-dhc-relay-id-suboption, work in progress, June 2011. 


ARCH: DHCP 和 自动 配置 205 


[ID6PARAM] http://www.iana.org/assignments/dhcpv6-parameters 


[IDDN] G. Daley, E. Nordmark, and N. Moore, “Tentative Options for Link- 
Layer Addresses in IPv6 Neighbor Discovery,” Internet draft-ietf-dna-tentative 
(expired), work in progress, Oct. 2009. 


[IDL2RA] B. Joshi and P. Kurapati, “Layer 2 Relay Agent Information,” Internet 
draft-ietf-dhc-l2ra, work in progress, Apr. 2011. 


[IEPARAM] http://www.iana.org/assignments/enterprise-numbers 


[MKB928233] Microsoft Knowledge Base Article 928233 at http://support 
microsoft.com 


[MS-DHCPN] Microsoft Corporation, “[MS-DHCPN]: Dynamic Host Configura- 
tion Protocol (DHCP) Extensions for Network Access Protection (NAP),” http:// 
msdn.microsoft.com/en-us/library/cc227316.aspx, Oct. 2008. 


[RFC0826] D. Plummer, “Ethernet Address Resolution Protocol: Or Converting 
Network Protocol Addresses to 48.bit Ethernet Address for Transmission on 
Ethernet Hardware,” Internet RFC 0826/STD 0037, Nov. 1982. 


[RFC0951] W. J. Croft and J. Gilmore, “Bootstrap Protocol,” Internet RFC 0951, 
Sept. 1985. 


[RFC1542] W. Wimer, “Clarifications and Extensions for the Bootstrap Protocol,” 
Internet RFC 1542, Oct. 1993. 


[RFC2131] R. Droms, “Dynamic Host Configuration Protocol,” Internet RFC 2131, 
Mar. 1997. 


[RFC2132] S. Alexander and R. Droms, “DHCP Options and BOOTP Vendor 
Extensions,” Internet RFC 2132, Mar. 1997. 


[RFC2241] D. Provan, “DHCP Options for Novell Directory Services,” Internet 
RFC 2241, Nov. 1997. 


[RFC2242] R. Droms and K. Fong, “NetWare/IP Domain Name and Informa- 
tion,” Internet RFC 2242, Nov. 1997. 


[RFC2516] L. Mamakos, K. Lidl, J. Evarts, D. Carrel, D. Simone, and R. Wheeler, 
“A Method for Transmitting PPP over Ethernet (PPPoE),” Internet RFC 2516 
(informational), Feb. 1999. 


[RFC2563] R. Troll, “DHCP Option to Disable Stateless Auto-Configuration in 
IPv4 Clients,” Internet RFC 2563, May 1999. 


[RFC2937] C. Smith, “The Name Service Search Option for DHCP,” Internet RFC 
2937, Sept. 2000. 


[RFC3004] G. Stump, R. Droms, Y. Gu, R. Vyaghrapuri, A. Demirtjis, B. Beser, and 
J. Privat, “The User Class Option for DHCP,” Internet RFC 3004, Nov. 2000. 


[RFC3011] G. Waters, “The IPv4 Subnet Selection Option for DHCP,” Internet RFC 
3011, Nov. 2000. 


[RFC3046] M. Patrick, “DHCP Relay Agent Information Option,” Internet RFC 
3046, Jan. 2001. 


[RFC3118] R. Droms and W. Arbaugh, eds., “Authentication of DHCP Messages,” 
Internet RFC 3118, June 2001. 


[RFC3203] Y. T’Joens, C. Hublet, and P. De Schrijver, “DHCP Reconfigure Exten- 
sion,” Internet RFC 3203, Dec. 2001. 


[RFC3315] R. Droms, ed., J. Bound, B. Volz, T. Lemon, C. Perkins, and M. Carney, 
“Dynamic Host Configuration Protocol for IPv6 (DHCPv6),” Internet RFC 3315, 


206 B6F 


July 2003. 


[RFC3396] T. Lemon and S. Cheshire, “Encoding Long Options in the Dynamic 
Host Configuration Protocol (DHCP v4),” Internet RFC 3396, Nov. 2002. 


[RFC3442] T. Lemon, S. Cheshire, and B. Volz, “The Classless Static Route Option 
for Dynamic Host Configuration Protocol (DHCP) Version 4,” Internet RFC 3442, 
Dec. 2002. 


[RFC3633] O. Troan and R. Droms, “IPv6 Prefix Options for Dynamic Host Con- 
figuration Protocol (DHCP) Version 6,” Internet RFC 3633, Dec. 2003. 


[RFC3646] R. Droms, ed., “DNS Configuration Options for Dynamic Host Con- 
figuration Protocol for IPv6 (DHCPv6),” Internet RFC 3646, Dec. 2003. 


[RFC3693] J. Cuellar, J. Morris, D. Mulligan, J. Peterson, and J. Polk, “Geopriv 
Requirements,” Internet RFC 3693 (informational), Feb. 2004. 


[RFC3736] R. Droms, “Stateless Dynamic Host Configuration Protocol (DHCP) 
Service for IPv6,” Internet RFC 3736, Apr. 2004. 


[RFC3756] P. Nikander, ed., J. Kempf, and E. Nordmark, “IPv6 Neighbor Discov- 
ery (ND) Trust Models and Threats,” Internet RFC 3756 (informational), May 
2004. 


[RFC3925] J. Littlefield, “Vendor-Identifying Vendor Options for Dynamic Host 
Configuration Protocol Version 4 (DHCPv4),” Internet RFC 3925, Oct. 2004. 


[RFC3927] S. Cheshire, B. Aboba, and E. Guttman, “Dynamic Configuration of 
IPv6 Link-Local Addresses,” Internet RFC 3927, May 2005. 


[RFC3971] J. Arkko, ed. J. Kempf, B. Zill, and P. Nikander, “SEcure Neighbor 
Dicovery (SEND),” Internet RFC 3971, Mar. 2005. 


[RFC3972] T. Aura, “Cryptographically Generated Addresses (CGA),” Internet 
RFC 3972, Mar. 2005. 


[RFC4030] M. Stapp and T. Lemon, “The Authentication Suboption for the 
Dynamic Host Configuration Protocol (DHCP) Relay Agent Option,” Internet 
RFC 4030, Mar. 2005. 


[RFC4039] S. Park, P. Kim, and B. Volz, “Rapid Commit Option for the Dynamic 
Host Configuration Protocol Version 4 (DHCPv4),” Internet RFC 4039, Mar. 2005. 


[RFC4174] C. Monia, J. Tseng, and K. Gibbons, “The IPv4 Dynamic Host Configu- 
ration Protocol (DHCP) Option for the Internet Storage Name Service,” Internet 
RFC 4174, Sept. 2005. 


[RFC4280] K. Chowdhury, P. Yegani, and L. Madour, “Dynamic Host Configu- 
ration Protocol (DHCP) Options for Broadcast and Multicast Control Servers,” 
Internet RFC 4280, Nov. 2005. 


[RFC4291] R. Hinden and S. Deering, “IP Version 6 Addressing Architecture,” 
Internet RFC 4291, Feb. 2006. 


[RFC4361] T. Lemon and B. Sommerfield, “Node-Specific Client Identifiers for 
Dynamic Host Configuration Protocol Version Four (DHCPv4),” Internet RFC 
4361, Feb. 2006. 


[RFC4388] R. Woundy and K. Kinnear, “Dynamic Host Configuration Protocol 
(DHCP) Leasequery,” Internet RFC 4388, Feb. 2006. 


[RFC4429] N. Moore, “Optimistic Duplicate Address Detection (DAD) for IPv6,” 
Internet RFC 4429, Apr. 2006. 


[RFC4436] B. Aboba, J. Carlson, and S. Cheshire, “Detecting Network Attachment 
in IPv4 (DNAv4),” Internet RFC 4436, Mar. 2006. 


系统 配置 DHCP 和 自动 配置 207 


[RFC4649] B. Volz, “Dynamic Host Configuration Protocol (DHCPv6) Relay 
Agent Remote-ID Option,” Internet RFC 4649, Aug. 2006. 


[RFC4702] M. Stapp, B. Volz, and Y. Rekhter, “The Dynamic Host Configuration 
Protocol (DHCP) Client Fully Qualified Domain Name (FQDN) Option,” Internet 
RFC 4702, Oct. 2006. 


[RFC4704] B. Volz, “The Dynamic Host Configuration Protocol for IPv6 (IPv6) 
Client Fully Qualified Domain Name (FQDN) Option,” Internet RFC 4704, Oct. 
2006. 


[RFC4776] H. Schulzrinne, “Dynamic Host Configuration Protocol (DHCPv4 and 
DHCPv6) Option for Civic Addresses Configuration Information,” Internet RFC 
4776, Nov. 2006. 


[RFC4833] E. Lear and P. Eggert, “Timezone Options for DHCP,” Internet RFC 
4833, Apr. 2007. 


[RFC4862] S. Thomson, T. Narten, and T. Jinmei, “IPv6 Stateless Address Auto- 
configuration,” Internet RFC 4862, Sept. 2007. 


[RFC4941] T. Narten, R. Draves, and S. Krishnan, “Privacy Extensions for State- 
less Address Autoconfiguration in IPv6,” Internet RFC 4941, Sept. 2007. 


[RFC5007] J. Brzozowski, K. Kinnear, B. Volz, and S. Zeng, “DHCPv6 Lease- 
query,” Internet RFC 5007, Sept. 2007. 


[RFC5010] K. Kinnear, M. Normoyle, and M. Stapp, “The Dynamic Host Configu- 
ration Protocol Version 4 (DHCPv4) Relay Agent Flags Suboption,” Internet RFC 
5010, Sept. 2007. 


[RFC5107] R. Johnson, J. Kumarasamy, K. Kinnear, and M. Stapp, “DHCP Server 
Identifier Override Suboption,” Internet RFC 5107, Feb. 2008. 


[RFC5175] B. Haberman, ed., and R. Hinden, “IPv6 Router Advertisement Flags 
Option,” Internet RFC 5175, Mar. 2008. 


[RFC5192] L. Morand, A. Yegin, S. Kumar, and S. Madanapalli, “DHCP Options 
for Protocol for Carrying Authentication for Network Access (PANA) Authentica- 
tion Agents,” Internet RFC 5192, May 2008. 


[RFC5222] T. Hardie, A. Newton, H. Schulzrinne, and H. Tschofenig, “LoST: A 
Location-to-Service Translation Protocol,” Internet RFC 5222, Aug. 2008. 


[RFC5223] H. Schulzrinne, J. Polk, and H. Tschofenig, “Discovering Location-to- 
Service Translation (LoST) Servers Using the Dynamic Host Configuration Proto- 
col (DHCP),” Internet RFC 5223, Aug. 2008. 


[RFC5460] M. Stapp, “DHCPvé6 Bulk Leasequery,” Internet RFC 5460, Feb. 2009. 


[RFC5569] R. Despres, “IPv6 Rapid Deployment on IPv4 Infrastructures (6rd),” 
Internet RFC 5569 (informational), Jan. 2010. 


[RFC5677] T. Melia, ed., G. Bajko, S. Das, N. Golmie, and JC. Zuniga, “IEEE 802.21 
Mobility Services Framework Design (MSFD),” Internet RFC 5677, Dec. 2009. 


[RFC5678] G. Bajko and S. Das, “Dynamic Host Configuration Protocol (DHCPv4 
and DHCPv6) Options for IEEE 802.21 Mobility Services (MoS) Discovery,” Inter- 
net RFC 5678, Dec. 2009. 


[RFC5735] M. Cotton and L. Vegoda, “Special-Use IPv4 Addresses,” Internet RFC 
5735/BCP 0153, Jan. 2010. 


[RFC5969] W. Townsley and O. Troan, “IPv6 Rapid Deployment on IPv4 Infra- 
structures (6rd)—Protocol Specification,” Internet RFC 5969, Aug. 2010. 


208 


[RFC5985] M. Barnes, ed., “HTTP-Enabled Location Delivery (HELD),” Internet 
RFC 5985, Sept. 2010. 


[RFC5986] M. Thomson and J. Winterbottom, “Discovering the Local Location 
Information Server (LIS),” Internet RFC 5986, Sept. 2010. 


[RFC6059] S. Krishnan and G. Daley, “Simple Procedures for Detecting Network 
Attachment in IPv6,” Internet RFC 6059, Nov. 2010. 


[RFC6106] J. Jeong, S. Park, L. Beloeil, and S. Madanapalli, “IPv6 Router Adver- 
tisement Options for DNS Configuration,” Internet RFC 6106, Nov. 2010. 


[RFC6148] P. Kurapati, R. Desetti, and B. Joshi, “DHCPv4 Lease Query by Relay 
Agent Remote ID,” Internet RFC 6148, Feb. 2011. 


[RFC6153] S. Das and G. Bajko, “DHCPv4 and DHCPv6 Options for Access Net- 
work Discovery and Selection Function (ANDSF) Discovery,” Internet RFC 6153, 
Feb. 2011. 


[RFC6221] D. Miles, ed., S. Ooghe, W. Dec, S. Krishnan, and A. Kavanagh, “Light- 
weight DHCPv6 Relay Agent,” Internet RFC 6221, May 2011. 


[RFC6225] J. Polk, M. Linsner, M. Thomson, and B. Aboba, ed., “Dynamic Host 
Configuration Protocol Options for Coordinate-Based Location Configuration 
Information,” Internet RFC 6225, Mar. 2011. 


[RFC6276] R. Droms, P. Thubert, F. Dupont, W. Haddad, and C. Bernardos, 
“DHCPv6 Prefix Delegation for Network Mobility (NEMO),” Internet RFC 6276, 
July 2011. 


| 第 7 章 


TCP/IP Illustrated, Volume 1: The Protocols, Second Edition 


防火 墙 和 网 络 地 址 转换 





7.1 引言 


在 因特网 (Internet) 以 及 协议 发 展 的 最 初 几 年 ， 大 多 数 网 络 设计 师 和 开发 人 员 都 来 自 于 
大 学 或 其 他 从 事 研 究 的 机 构 。 这 些 研 究 人 员 普 遍 是 友好 和 合作 的 ， 当 时 的 互联 网 系统 虽然 容 
易 遭 受 攻击 ， 但 并 没有 多 少 人 有 兴趣 去 攻击 它 。 在 20 世纪 80 年 代 末 ， 特 别 是 20 世纪 90 年 
代 初 至 中 期 ， 互 联网 得 到 了 大 家 的 普遍 关注 ， 致 使 人 们 开始 感 兴趣 去 攻陷 它 。 成 功 的 攻击 成 
了 家 常 便 饭 ， 互 联网 主机 在 软件 实现 中 的 各 种 错误 及 未 定义 的 协议 操作 造成 了 大 量 问题 。 因 
为 一 些 网 站 有 大 量 的 、 各 种 版 本 的 操作 系统 软件 ， 对 于 系统 管理 员 而 言 ， 要 确保 所 有 这 些 后 
端 系统 中 的 各 种 错误 均 已 被 修复 是 非常 困难 的 。 此 外 ， 对 于 已 经 被 淘汰 的 系统 ， 要 完成 这 项 
工作 几乎 是 不 可 能 的 。 为 了 解决 这 个 问题 ， 需 要 一 种 方法 来 控制 互联 网 中 网 络 流量 的 流向 。 
今天 ， 这 项 工作 由 防火 墙 来 完成 ， 它 是 一 种 能 够 限制 所 转发 的 流量 类 型 的 路 由 器 。 

随 着 部 署 防火 墙 来 保护 企业 ， 另 一 个 问题 变 得 越 来 越 重 要 : 可 用 的 IPv4 地 址 数量 正面 
临 枯竭 的 威胁 。 必 须 采 取 有 效 的 措施 来 管理 卫 地 址 的 分 配 和 使 用 。 除 了 IPv6 之 外 ， 一 种 
最 为 重要 的 解决 机 制 就 是 网 络 地 址 转换 (Network Address Translation, NAT). RH NAT 之 
后 ， 互 联网 地 址 就 不 再 需要 是 全 球 唯一 的 ， 因 此 可 以 在 互联 网 的 不 同 部 分 ( 称 为 地 址 范围 
(address realm)) 被 重复 使 用 。 人 允许 在 多 个 范围 中 的 同一 地 址 重复 使 用 ， 大 大 缓解 了 地 址 耗 
尽 的 问题 。 正 如 我 们 所 看 到 的 ，NAT 与 防火 墙 相 结合 生成 的 复合 设备 ， 已 经 演变 成 用 于 连接 
终端 用 户 的 最 为 常见 的 路 由 器 类 型 ， 包 括 连 接 家 庭 网 络 和 小 型 企业 网 络 至 互联 网 的 。 现 在 ， 
我 们 将 进一步 探讨 防火 墙 和 NAT 的 细节 。 


7.2 BAGG 


保证 终端 系统 的 软件 是 最 新 的 和 不 存在 任何 错误 需要 承担 巨大 的 管理 压力 ， 因 此 确保 终 
端 系统 免 受 攻击 的 焦点 转 为 如 何 利用 防火 墙 来 过 滤 部 分 流量 以 限制 流量 流向 终端 系统 。 今 天 
防火 墙 很 常见 ， 并 已 经 演化 出 多 种 不 同 的 类 型 。 

最 为 常用 的 两 种 防火 墙 是 代理 防火 墙 (proxy firewall) 和 包 过 滤 防 火 墙 (packet-filter 
firewall)。 它 们 之 间 的 主要 区 别 是 所 操作 的 协议 栈 的 层次 及 由 此 决定 的 IP 地 址 和 端口 号 的 使 
用 。 包 过 滤 防 火 墙 是 一 个 互联 网 路 由 器 ， 能 够 丢弃 符合 (或 者 不 符合 ) 特定 条 件 的 数据 包 。 
从 Internet 客户 端的 角度 来 看 ， 代 理 防火 墙 则 是 一 个 多 宿主 的 服务 器 主机 。 也 就 是 说 ， 它 是 
TCP 和 UDP 传输 关联 的 终点 ， 通 常 不 会 在 IP 协议 层 中 路 由 IP 数据 报 。 


7.2.1 包 过 滤 防 火 墙 


包 过 滤 防 火 墙 作为 互联 网 路 由 器 ， 能 够 过 滤 (filter) (EF) 一 些 网 络 流量 。 它 们 一 般 
都 可 以 配置 为 丢弃 或 转发 数据 包头 中 符合 (或 不 符合 ) 特定 标准 的 数据 包 ， 这 些 标 准 称 为 过 
滤器 (filter)。 简 单 的 过 滤器 包括 网 络 层 或 传输 层 报头 中 各 个 部 分 的 范围 比较 。 最 流行 的 过 
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滤器 包括 IP 地 址 或 者 选项 、ICMP 报 文 的 类 型 ， 以 及 根据 数据 包 中 端口 号 确定 的 各 种 UDP 
或 TCP 服务 。 正 如 我 们 将 看 到 的 ， 最 简单 的 包 过 滤 防 火 墙 是 无 状态 的 ， 而 更 复杂 的 防火 墙 
是 有 状态 的 。 无 状态 的 包 过 滤 防 火 墙 单独 处 理 每 一 个 数据 报 ， 而 有 状态 的 防火 墙 能 够 通过 
关联 已 经 或 者 即将 到 达 的 数据 包 来 推断 流 或 者 数据 报 的 信息 ， 即 那些 属于 同一 个 传输 关联 
(transport association) 的 数据 包 或 构成 同一 个 IP 数据 报 (参见 第 10 章 ) AY IP ot. IP oP 
使 得 防火 墙 的 工作 变 得 更 为 复杂 ， 无 状态 包 过 滤 防 火 墙 极 易 被 其 混淆 。 

图 7-1 所 示 为 一 个 典型 的 包 过 滤 防 火 墙 。 在 这 里 防火 墙 是 一 个 有 着 三 个 网 络 接口 的 互联 
网 路 由 器 : 一 个 “内 ”接口 ， 一 个 “外 ”接口 和 第 三 个 “ 非 军 事 区 ”(DMZ) 接口 。DMZ F 
网 能 够 访问 外 联网 或 DMZ， 其 中 部 署 的 服务 器 可 供 互联 网 用 户 访问 。 网 络 管理 员 会 安装 过 
滤器 或 访问 控制 列表 (Access Control Lists, ACL) (ACL 列 出 了 什么 类 型 的 数据 包 需 要 被 丢 
弃 或 转发 的 基本 政策 ) 到 防火 墙 中 。 通 常情 况 下 ， 这 些 过 滤器 将 会 全 力 拦 截 来 自 外 网 的 恶意 
流量 ,但 不 会 限制 从 内 网 到 外 网 的 流量 。 








DMZ/ 企 业 外 部 网 络 
( Internet 服 务 器 ) 








Internet 


(外 部 ) 








进来 规则 
( 多数 是 不 允许 的 ) 
例如 : 允许 TCP/UDP/ 
ICMP/DNS 应 答 流量 和 
DMZ 流量 


外 出 规则 
(多 数 是 允许 的 ) 





图 7-1 一 个 典型 的 包 过 滤 防 火 墙 的 配置 。 防 火 墙 作 为 IP 路 由 器 位 于 一 个 “内 ”网 和 “外 ”网 之 间 ， 
有 时 是 在 第 三 个 “DMZ” 或 外 联网 ， 只 允许 某 些 特定 的 流量 通过 。 一 种 常见 的 配置 是 允许 所 
有 从 内 网 到 外 网 的 流量 通过 ,但 相反 的 方向 只 允许 小 部 分 的 流量 。 当 使 用 一 个 DMZ 时 ， 只 人 允 
许 从 Internet 访问 其 中 的 某 些 特定 服务 


7.2.2 代理 防火 墙 


包 过 滤 的 防火 墙 作为 一 个 路 由 器 可 以 选择 性 地 丢弃 数据 包 。 其 他 类 型 的 防火 墙 ， 如 代理 
防火 墙 ， 并 不 是 真正 意义 上 的 互联 网 路 由 器 。 相 反 ， 它 们 本 质 上 是 运行 一 个 或 多 个 应 用 层 网 
% (Application-Layer Gateways, ALG) 的 主机 ， 该 主机 拥有 多 个 网 络 接口 ， 能 够 在 应 用 层 
中 继 两 个 连接 / 关联 之 间 的 特定 类 型 的 流量 。 它 们 通常 不 像 路 由 器 那样 做 卫 转发 ， 虽 然 现 在 
已 经 有 结合 了 各 种 功能 的 更 复杂 的 代理 防火 墙 。 

图 7-2 说 明了 一 个 代理 防火 墙 。 对 于 这 种 类 型 的 防火 墙 ， 防 火 墙 内 的 客户 端 通常 会 做 特 
殊 配置 以 便 关 联 (或 者 连接 ) 到 代理 防火 墙 ， 而 不 是 连接 到 实际 提供 所 需 服务 的 真正 的 终端 
主机 。( 能 够 和 代理 防火 墙 以 这 种 方式 交互 的 应 用 需要 提供 相应 的 配置 选项 。) 通常 这 些 防 火 
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墙 作为 多 宿主 主机 ， 即 便 具 备 IP 转发 的 能 力也 是 被 禁用 的 。 与 包 过 滤 防 火 墙 一 样 ， 一 种 常 
见 的 配置 是 为 “外 ”接口 分 配 一 个 全 局 路 由 的 他 地址， 为 “内 ”接口 分 配 一 个 私有 的 中 地 
址 。 因 此 ， 代 理 防 火 墙 支持 使 用 私有 地 址 范围 。 


代理 防火 增 








Internet 


(外 部 ) 


企业 /家 庭 
( 内 部 ) 


外 出 连接 | 在 防火 墙 机 器 上 运行 | 进入 连接 只 
在 防火 墙 | 每 个 受 支 持 的 服务 的 | 到 运行 的 委 
处 终止 | 应 用 /服务 代理 托 代理 


图 7-2 代理 防火 墙 作为 一 个 多 宿主 的 Internet 主机 ,终止 在 应 用 层 的 TCP 和 UDP 的 连接 。 它 不 像 一 
个 传统 的 卫 路 由 器 ， 而 更 像 一 个 ALG。 单 个 应 用 程序 或 代理 为 了 其 所 支持 的 每 个 服务 ， 必 须 
具备 和 代理 防火 墙 进行 通信 交互 的 能 力 


虽然 这 种 类 型 的 防火 墙 是 非常 安全 的 (一些 人 认为 ， 这 种 类 型 的 防火 墙 从 根本 上 比 包 过 
滤 防 火 墙 安全 )， 但 它 是 以 脆性 (brittleness) 和 缺乏 灵活 性 为 代价 的 。 特 别 是 ， 因 为 这 种 类 型 
的 防火 墙 必 须 为 每 个 传输 层 服务 设置 一 个 代理 ,任何 要 使 用 的 新 服务 必须 安装 一 个 相应 的 代 
理 ， 并 通过 该 代理 来 操作 发 起 连接 。 此 外 ， 必 须 配 置 每 个 客户 端 以 便 能 够 找到 代理 (例如 ， 
使 用 Web 代理 自动 发 现 协议 或 WPAD[XIDAD]， 当 然 也 有 一 些 替代 的 方法 ， 如 所 谓 的 捕捉 
代理 就 能 够 处 理 某 种 类 型 的 所 有 流量 ， 而 不 管 其 目标 地 址 如 何 )。 至 于 部 署 方面 ， 这 些 防 火 
墙 在 所 有 被 访问 的 网 络 服务 均 能 提前 确定 的 环境 中 能 工作 得 很 好 ， 但 是 添加 额外 的 服务 可 能 
需要 网 络 运 营 者 的 重大 干预 。 

代理 防火 墙 的 两 种 最 常见 的 形式 是 HTTP 代理 防火 墙 (HTTP proxy firewall) [RFC2616] 
FI SOCKS 防火 墙 ( SOCKS firewall) [RFC1928]。 第 一 种 类 型 也 称 为 Web 代理 ， 只 能 用 于 
HTTP 和 HTTPS 协议 ( Web)， 这 些 协 议 是 非常 普遍 的 ， 因 此 这 些 代理 会 被 经 党 使用。 这些 
代理 对 于 内 网 用 户 来 说 就 像 是 Web 服务 器 ， 对 于 被 访问 的 外 部 网 站 来 说 就 像 是 Web 客户 
端 。 这 种 代理 往往 也 提供 Web 缓存 ( Web cache) 功能 。 这 些 缓存 保存 网 页 的 副本 ， 以 便 后 
续 访 问 可 以 直接 从 缓存 中 获取 ， 而 不 再 需要 访问 原始 的 Web 服务 器 。 这 样 做 的 好 处 是 可 以 
减少 显示 网 页 的 延迟 ， 提 高 用 户 访问 网 站 的 体验 。 一 些 Web 代理 也 经 常 被 用 作 内 容 过 滤器 
(content filter)， 能 够 基于 “ 黑 名 单 ” 来 阻止 用 户 访问 某 些 Web 网站。 相反 ， 在 互联 网 上 还 
可 以 找到 一 些 所 谓 的 隧道 代理 服务 器 (tunneling proxy server)。 这 些 服务 器 (例如 psiphon 和 
CGIProxy) 本 质 上 执行 相反 的 功能 ， 以 避免 用 户 被 内 容 过 滤器 封 阻 。 

SOCKS 协议 比 HTTP 代理 访问 使 用 更 为 广泛 ， 可 用 于 Web 之 外 的 其 他 服务 。 目 前 正在 
使 用 的 SOCKS 有 两 个 版 本 : 版 本 4 和 版 本 5。 第 4 版 为 代理 传输 提供 了 基本 的 支持 ,而 第 
5 版 增加 了 强大 的 认证 、UDP 传输 和 IPv6 寻 址 。 为 使 用 SOCKS 代理 ， 应 用 程序 在 开发 时 必 
须 添 加 SOCKS 代理 支持 功能 ( 即 它 必须 是 能 够 被 代理 的 )， 同 时 通过 配置 应 用 程序 能 够 获知 
代理 的 位 置 及 其 版 本 。 一 旦 配置 完成 客户 端 使 用 SOCKS 协议 请 求 代理 进行 网 络 连 接 ， 也 
可 以 选择 性 地 进行 DNS 查找 。 
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7.3 ”网络 地 址 转换 


NAT 本 质 上 是 一 种 允许 在 互联 网 的 不 同 地 方 重复 使 用 相同 的 TP 地 址 集 的 机 制 。 建 立 
NAT 的 主要 动机 是 正在 急剧 减少 的 有 限 IP 地 址 空间 。 使 用 NAT 最 常见 的 情况 是 ， 唯 一 与 
Internet 连接 的 站 点 仅 被 分 配 了 很 少 的 几 个 IP 地址 (甚至 只 有 一 个 IP 地址)， 但 是 内 部 却 有 
多 台 主 机 需要 同时 上 网 。 当 所 有 进出 的 流量 均 通 过 一 个 单独 的 NAT 设备 时 ， 该 设备 将 内 部 
系统 的 地 址 空间 和 全 球 互联 网 地 址 空间 分 割 开 ， 因 此 所 有 的 内 部 系统 可 以 使 用 本 地 分 配 的 私 
A IP 地 址 访问 互联 网 。 然 而 ， 为 分 配 了 私有 地 址 空间 的 系统 在 互联 网 上 提供 服务 是 一 项 更 
为 复杂 的 工作 。 我 们 在 7.3.4 节 讨 论 这 种 情况 。 

NAT 的 引入 用 以 解决 两 个 问题 IP 地 址 枯竭 和 关于 路 由 可 扩展 性 的 担忧 。 在 刚 推出 的 
时 候 (20 世纪 90 年 代 初 )，NAT 仅 作 为 权宜 之 计 ， 是 一 种 临时 的 措施 ， 直 到 一 些 具 有 更 大 地 
址 数量 的 协议 (最终 是 IPv6 ) 被 广泛 部 署 为 止 。 无 类 域 间 路 由 (CIDR， 见 第 2 章 ) 的 发 展 解 
决 了 路 由 可 扩展 性 问题 。NAT 是 受 欢迎 的 ， 因 为 它 减 少 了 对 具备 全 局 路 由 的 互联 网 地 址 的 需 
求 ， 同 时 提供 了 一 些 防火 墙 功能 ， 并 且 仅 需要 很 少 的 配置 。 但 具有 讽刺 意味 的 是 ， 快 速 发 展 
和 广泛 使 用 的 NAT 却 严重 影响 了 IPv6 的 推进 进程 。 在 IPv6 的 诸多 益处 中 ， 其 中 一 项 就 是 使 
得 不 再 需要 NAT[RFC4864]. 

NAT 尽管 很 流行 ， 但 是 存在 几 个 缺点 。 最 明显 的 是 ， 需 要 做 特殊 配置 才能 使 处 于 NAT 
内 部 的 主机 能 够 提供 可 供 互 联网 访问 的 服务 ， 因 为 互联 网 上 的 用 户 无 法 直接 访问 具备 私有 地 
址 的 主机 。 此 外 ， 为 了 使 NAT 正常 工作 ， 每 一 个 隶属 于 同一 个 连接 或 关联 的 双向 数据 包 都 
必须 通过 相同 的 NAT。 这 是 因为 NAT 必须 重 写 每 个 数据 包 的 寻 址 信息 ， 以 便 私 有 地 址 空间 
的 系统 和 Internet 主机 之 间 能 够 正常 通信 。 在 许多 方面 ， NAT 和 互联 网 协议 的 基本 宗旨 是 背 

303] 道 而 驰 的 :“ 智 能 边缘 ”(smart edge) 和 “哑巴 中 间 ”(dumb middle)。 为 完成 工作 ，NAT 需要 
跟踪 每 个 关联 ( per-association) (或 每 个 连接 (per-connection) ) 的 连接 状态 ， 其 操作 贯穿 多 
个 协议 层 ， 并 不 像 传 统 的 路 由 器 。 修 改 IP 层 地 址 也 需要 同时 修改 传输 层 的 校 验 码 ( 见 第 10 
章 和 第 13 章 关 于 伪 头 部 的 校 验 )。 

NAT 会 对 一 些 应 用 协议 造成 困扰 ， 尤 其 是 那些 在 应 用 层 的 有 效 载荷 内 记录 IP 地 址 信息 
的 协议 。 文 件 传输 协议 ( File Transfer Protocol, FTP) [RFC0959] 和 SIP[RFC5411] 就 是 这 种 
类 型 的 协议 代表 。 它 们 需要 一 种 特殊 的 应 用 层 网 关 功 能 来 重 写 应 用 程序 的 内 容 ， 以 便 能 够 毫 
无 修改 地 采用 NAT 或 者 其 他 的 NAT 传输 方法 工作 ， 这 些 传输 方法 允许 应 用 程序 自行 确定 如 
何在 NAT 上 工作 。 关 于 NAT 的 一 个 更 完整 的 问题 清单 出 现在 [RFC3027]。 尽 管 存在 许多 问 
mA, {A NAT 的 使 用 非常 广泛 ， 并 且 被 大 多 数 网 络 路 由 器 (基本 上 包括 所 有 低 端 家 用 路 由 器 ) 
所 支持 。 今 天 ，NAT 是 如 此 普遍 ， 以 至 于 应 用 程序 设计 者 被 鼓励 开发 “NAT 友好 ”的 应 用 
[RFC3235]。 值 得 一 提 的 是 ， 尽 管 存在 缺点 ， 但 是 NAT 所 支持 的 基本 协议 (例如 ， 电 子 邮 件 
和 浏览 器 ) 被 数 以 百 万 计 的 客户 端 系统 在 访问 互联 网 时 所 采用 。 

NAT 的 工作 原理 就 是 重 写 通过 路 由 器 的 数据 包 的 识别 信息 。 这 种 情况 常 发 生 在 数据 传输 
的 两 个 方向 上 。 在 这 种 最 基本 的 形式 中 ，NAT 需要 重 写 往 一 个 方向 传输 的 数据 包 的 源 IP 地 
址 ， 重 写 往 另 一 个 方向 传输 的 数据 包 的 目的 他 地址 。 这 允许 传 出 的 数据 包 的 源 IP 地 址 变 为 
NAT 路 由 器 中 面向 Internet 的 网 络 接口 地 址 ， 而 不 是 原始 主机 的 接口 地 址 。 因 此 ， 在 互联 网 
上 的 主机 看 来 ,数据 包 是 来 自 于 具备 全 局 路 由 IP 的 NAT 路由器， 而 不 是 位 于 NAT 内 部 的 私 

有 地 址 的 主机 。 
大 多 数 的 NAT 同时 执行 转换 (translation) 和 包 过 滤 (packet filtering)， 包 过 滤 的 标准 取 
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决 于 NAT 的 动态 状态 。 包 过 滤 策 略 的 选择 可 能 会 有 不 同 的 粒度 ， 例 如 ，NAT 如 何 处 理 非 请 
求 的 数据 包 (它们 和 源 自 于 NAT 内 部 的 数据 包 没有 任何 关联 ) 取决 于 源 和 目标 IP 地 址 和 /或 
源 和 目的 端口 号 。 处 理 的 行为 在 不 同 的 NAT 上 会 有 所 不 同 ， 有 时 甚至 在 同一 个 NAT 上 也 会 
随时 间 变 化 而 变化 。 这 为 必须 运行 在 NAT 后 面 的 应 用 程序 带 来 了 各 种 挑战 。 
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图 7-3 一 个 将 私有 地 址 及 其 内 部 系统 与 互联 网 隔离 的 NAT。 私 有 地 址 的 数据 包 不 会 在 互联 网 上 直接 
路 由 ， 相 反 在 进入 和 离开 私有 网 络 时 必须 通过 NAT 路 由 器 。 互 联网 主机 看 到 流量 来 自 于 NAT 
的 一 个 公共 IP 地 址 


7.3.1 传统 的 NAT: 基本 NAT 和 NAPT 


很 多 年 来 都 没有 精确 定义 NAT 的 行为 。 尽 管 如 此 ， 根据 NAT 思想 行为 的 不 同 实 现 , 已 
经 对 出 现 的 NAT 类 型 进行 了 分 类 。 所 谓 的 传统 NAT (traditional NAT) 包括 基本 NAT (basic 
NAT) 和 网 络 地 址 端口 转换 ( Network Address Port Translation, NAPT) [RFC3022]。 基 本 
NAT 只 执行 IP 地 址 的 重 写 。 本 质 上 就 是 将 私有 地 址 改写 为 一 个 公共 地 址 一 一 往往 取 自 于 一 
个 由 ISP 提供 的 地 址 池 或 公有 地 址 范围 。 这 种 类 型 的 NAT 不 是 最 流行 的 ， 因 为 它 无 助 于 减 
少 需要 使 用 的 IP 地 址 数量 ,全 局 可 路 由 的 地 址 数量 必须 大 于 或 等 于 希望 同时 访问 Internet 的 
内 部 主机 数量 。 一 个 比较 流行 的 做 法 是 采用 NAPT。NAPT 使 用 传输 层 标识 符 (BN TCP 和 
UDP 端口 ，ICMP 查询 标识 符 ) 来 确定 一 个 特定 的 数据 包 到 底 和 NAT 内 部 的 哪 台 私 有 主机 关 
联 ( 见 图 7-4 )。 这 使 得 大 量 的 内 部 主机 ( 即 好 几 千 台 ) 能 够 同时 访问 互联 网 ， 而 使 用 的 公有 
地 址 数量 却 很 少 ， 通 常 只 需要 一 个 。 除 非 进 行 区 分 很 重要 ， 否 则 我 们 所 说 的 NAT 将 同时 包 
括 传统 的 NAT 和 NAPT。 
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Src IP: 192.168.17.4 Src IP: 203.0.113.3 Sre IP: 192.168.17.4 Sre IP: 203.0.113.1 
Src Port: 34011 Src Port: 34011 Sre Port: 34011 Sre Port: 3401+ 


图 7-4 一 个 基本 的 IPv4 NAT (Æ) 利用 地 址 池 中 的 地 址 重 写 TP 地 址 ， 但 是 保留 端口 号 不 变 。NAPT (47) 
也 称 为 IP 伪装 ， 通 常 将 所 有 的 地 址 都 重 写 到 一 个 地 址 。NAPT 有 时 必须 重 写 端 口号 ， 以 避免 冲 
突 。 在 这 种 情况 下 ， 第 二 个 实例 的 端口 号 23479 被 重 写 为 3000， 以 便 区 分 返回 的 192.168.1.2 和 
192.168.1.35 的 流量 
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在 NAT“ 后 面 ”或 者 “内 部 ”使 用 的 私有 地 址 范围 不 受 除了 本 地 网 络 管理 人 员 之 外 的 任 
何人 的 限制 。 因 此 ， 有 可 能 在 私有 范围 内 采用 全 局 地 址 空间 。 原 则 上 ， 这 是 可 以 接受 的 。 然 
而 ， 当 这 样 的 全 局 地 址 也 被 互联 网 上 的 另 一 个 实体 所 使 用 时 ， 在 私有 范围 内 的 本 地 系统 极 有 
可 能 无 法 达到 使 用 相同 地 址 的 公共 系统 ， 这 是 因为 采用 相同 地 址 的 本 地 系统 会 屏蔽 掉 使 用 相 
同 地 址 的 远 端 系统 。 为 了 避免 这 种 不 良 情 况 的 发 生 ， 保 留 了 三 个 IPv4 地 址 范围 作为 私有 地 
址 范围 使 用 [RFC1918 中 ] : 10.0.0.008，172.16.0.0/12，192.168.0.0/16。 这 些 地 址 范围 经 常 
被 用 来 作为 嵌入 式 DHCP 服务 器 ( 见 第 6 章 ) 的 地 址 池 的 默认 值 。 

正如 刚才 所 说 ，NAT 提供 了 一 定 程度 上 的 类 似 于 防火 墙 的 安全 性 。 默 认 情 况 下 ， 从 互联 
网 上 无 法 访问 NAT 私有 端的 所 有 系统 。 在 大 多 数 NAT 部 署 中 ， 内 部 系统 使 用 私有 地 址 。 因 
此 ， 必 须 借 助 NAT 的 参与 (根据 其 使 用 策略 和 行为 )， 才 能 保证 私人 地 址 领域 和 公共 领域 中 
的 主机 之 间 的 正常 通信 。 虽 然 在 实践 中 可 以 使 用 各 种 策略 ， 一 个 共同 的 策略 是 : 几乎 允许 所 
有 的 传 出 及 其 返回 流量 (与 传 出 流量 相对 应 的 ) 通过 NAT, 但 几乎 阻 断 所 有 传人 的 新 连接 请 
求 。 此 行为 抑制 了 试图 确定 可 利用 的 活动 主机 的 IP 地 址 “探测 ”攻击 。 此 外 ，NAT (尤其 是 
NAPT) 对 外 “隐藏 ”内 部 地 址 的 数量 和 配置 。 一 些 用 户 认为 这 些 拓扑 信息 是 专 有 的 ， 并 应 
保密 。NAT 有 助 于 这 种 所 谓 的 拓扑 隐藏 。 

正如 我 们 所 探讨 的 ，NAT 需要 适合 它们 所 支持 的 协议 和 应 用 程序 ， 所 以 很 难 在 隔离 
NAT 所 处 理 的 协议 的 条 件 下 单独 讨论 NAT 的 行为 。 因 此 ， 我们 现在 考察 NAT 是 如 何 处 理 其 
支持 的 每 个 主要 传输 协议 的 ， 以 及 如 何在 IPv4/IPv6 混合 环境 中 被 使 用 。 这 其 中 的 许多 行为 
细节 一 直 是 IETF 的 BEHAVE (Behavior Engineering for Hindrance Avoidance) 工作 组 的 讨论 
主题 。 从 2007 年 开始 ，BEHAVE 已 经 完成 了 一 些 文件 ， 阐 明了 NAT 的 一 臻 行为。 这些 文件 
对 于 应 用 程序 编写 者 和 NAT 开发 者 是 非常 有 用 的 ， 可 以 了 解 NAT 是 如 何 操作 的 。 


7.3.1.1 NAT 和 TCP 

回想 第 1 章 介 绍 的 内 容 ， 互 联网 中 最 为 主要 的 传输 层 协议 是 TCP， 使 用 一 个 IP 地 址 和 
端口 号 来 标识 一 个 连接 的 每 一 端 。 每 个 连接 由 两 端 组 成 ， 每 个 TCP 连接 由 两 个 IP 地 址 和 
两 个 端口 号 唯一 标识 。 当 发 起 一 个 TCP 连接 时 ,“ 主 动 发 起 者 ”或 客户 端 通常 发 送 同步 包 
(SYN) 到 “被 动 发 起 者 ”或 服务 器 端 。 服 务 器 端 通过 回复 一 个 自己 的 SYN 数据 包 进 行 响应 ， 
同时 还 包括 一 个 对 客户 端的 SYN 数据 包 进 行 确认 的 ACK 数据 包 。 客 户 端 回复 一 个 ACK 数 
据 包 给 服务 器 端 。 这 样 ， 通 过 “三 次 握手 ”创建 了 连接 。 类 似 的 结束 (FIN) 数据 包 被 用 于 优 
雅 地 关闭 连接 。 当 然 ， 连 接 也 能 通过 重 置 (RST) 数据 包 来 强行 关闭 (请 参阅 第 13 章 TCP 连 
接 的 详细 描述 )。 与 TCP 相关 的 传统 NAT 行为 要 求 定义 在 [RFC5382] 中 ， 主 要 涉及 了 TCP 
的 三 次 握手 。 

以 图 7-3 中 的 家 庭 网 络 为 例 ， 考 察 一 个 由 地 址 为 10.0.0.126 的 无 线 客户 端 发 起 的 TCP 连 
接 ， 其 目标 是 Web 服务 器 主机 www.isoc.org (IPv4 地 址 212.110.167.157 )。 使 用 以 下 符号 


.来 表示 IPv4 地 址 和 端口 号 : GRIP: 源 端口 ; 目标 IP : 目标 端口 ), 在 私人 段 内 发 起 连接 的 


数据 包 可 表示 为 (10.0.0.126:9200; 212.110.167.157:80 )。NAT/ 防火 墙 设备 作为 客户 端的 默 
认 路 由 器 ， 将 会 收 到 第 一 个 数据 包 。NAT 注意 到 传人 的 数据 包 是 一 个 新 的 连接 (因为 TCP 
报头 中 的 SYN 标志 位 是 打开 的 ， 见 第 13 章 )。 如 果 策 略 允 许 (通常 会 ， 因 为 这 是 一 个 向 外 
发 起 的 连接 )， 数 据 包 的 源 IP 地 址 会 被 修改 为 NAT 路 由 器 的 外 部 接口 的 IP 地址 。 因 此 ， 当 


NAT 转发 这 个 数据 包 的 时 候 ， 其 寻 址 是 ( 63.204.134.177:9200; 212.110.167.157:80 )。 除 了 
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转发 数据 包 之 外 ，NAT 还 创建 一 个 内 部 状态 记 住 当前 正在 处 理 一 个 新 连接 ( 称 为 NAT 会 
话 (NAT session))。 这 种 状态 至 少 包 括 一 个 由 客户 端的 源 端 口号 和 IP 地 址 组 成 的 条 目 〈 称 
J NAT 映射 (NAT mapping))。 当 Internet 服务 器 回复 时 会 用 到 这 些 信息 。 服 务 器 会 采用 客 
户 端 初始 选择 使 用 的 端口 号 来 回复 端点 ( 63.204.134.177:9200 )， 即 NAT 的 外 部 地 址 。 这 种 
行为 被 称 为 端口 保留 (port preservation)。 通 过 比 对 收 到 的 数据 包 的 目的 端口 号 与 NAT 映 
HREH, NAT 能 够 确定 发 起 请 求 的 客户 端的 内 部 IP 地 址 。 在 我 们 的 例子 中 ， 这 个 地 址 是 
10.0.0.126， 所 以 NAT 将 回复 的 数据 包 从 (212.110.167.157:80; 63.204.134.177:9200 ) 改 为 
( 212.110.167.157:80; 10.0.0.126:9200 )， 并 对 其 进行 转发 。 然 后 客户 端 收 到 对 其 请 求 的 响应 ， 
这 样 在 多 数 情况 下 表示 已 经 连接 到 服务 器 。 

这 个 例子 说 明了 在 正常 情况 下 是 如 何 建立 一 个 基本 NAT 会 话 的 ， 但 并 未 说 明 该 会 话 是 
如 何 被 清除 的 。 会 话 状态 将 会 在 交换 FIN 数据 包 之 后 被 删除 ， 但 并 不 是 所 有 的 TCP 连接 都 
是 正常 关闭 的 。 有 时 只 是 简单 地 将 主机 关闭 ， 这 样 会 导致 应 该 被 清除 的 NAT 映射 仍 保留 在 
内 存 中 。 因 此 当 流 量 很 少时 (或 者 用 一 个 RST 段 表示 存在 其 他 问题 )，NAT 必须 清除 这 些 被 
认为 已 经 “死亡 ”的 映射 条 目 。 

大 多 数 的 NAT 包括 一 个 TCP 连接 建立 的 简化 版 本 ， 并 可 以 区 分 连接 成 功 还 是 失败 了 。 
特别 地 ，NAT 在 检测 到 一 个 传 出 的 SYN 数据 包 后 会 激活 连接 计时 器 〈connection timer)， 如 
果 回 复 的 ACK 数据 包 在 计时 器 到 期 之 前 还 未 到 达 ， 则 该 会 话 状态 将 被 清除 。 如 果 ACK 数据 
包 到 达 了 ， 计 时 器 将 被 清除 ， 并 创建 一 个 超时 较 长 的 会 话 计时 器 〈session timer)( 如 用 小 时 来 
代替 分 钟 )。 当 发 生 这 种 情况 时 ，NAT 可 能 会 向 内 部 的 端点 发 送 一 个 额外 的 数据 包 ， 用 于 确 
认 该 会 话 是 否 已 经 终止 了 ( 称 为 探测 (probing))。 如 果 收 到 ACK，NAT 认识 到 该 连接 仍然 
是 活跃 的 ， 则 重 置 会 话 计时 器 ， 并 不 会 删除 会 话 。 如 果 没 有 收 到 响应 (在 关闭 计时 器 (close 
timer) 超时 之 后 ) 或 者 收 到 一 个 RST 数据 包 ， 表 明 该 连接 已 经 终止 ， 状 态 将 被 清除 。 

[RFC5382] 是 BEHAVE 工作 组 的 一 个 成 果 ， 指 出 一 个 TCP 连接 可 以 被 配置 为 发 送 “ 存 
活 ”( keepalive) 数据 包 ( 见 第 17 章 )， 在 该 配置 被 启用 时 其 默认 的 发 送 速率 是 每 两 个 小 时 一 
个 数据 包 。 否 则 ， 一 个 TCP 连接 可 以 一 直 保 持 下 去 。 然 而 ， 当 一 个 连接 被 建立 或 清除 时 ， 
其 最 大 的 空闲 时 间 是 4 分钟 。 因 此 ，[RFC5382] 要 求 (REQ-5 ) NAT 在 判定 所 创建 的 连接 是 
否 已 经 断 开 前 至 少 需要 等 待 2 小 时 4 分 钟 ， 而 在 判定 部 分 打开 或 关闭 的 连接 是 否 已 经 断 开 前 
至 少 需 要 等 待 4 分钟 。 

一 个 TCP NAT 面临 的 棘手 问题 是 如 何 处 理 位 于 多 个 NAT 内 部 的 主机 上 运行 的 对 等 
(peer-to-peer) 应 用 [RFC5128]。 一 部 分 应 用 程序 采用 了 “同时 发 起 连接 ”( simultaneous open) 
的 技术 ， 让 连接 的 每 一 端 均 作为 客户 端 同时 发 送 SYN 数据 包 。TCP 能 够 响应 SYN +ACK 的 
数据 包 ， 完 成 连接 的 速度 比 三 次 握手 还 要 快 , 但 目前 有 许多 NAT 并 不 能 正确 地 处 理 这 种 情 
况 。 为 此 ，[RFC5382] 要 求 (REQ-2 ) NAT 处 理 所 有 有 效 的 TCP 包 交 换 ， 尤 其 是 这 种 连接 同 
时 打开 的 情况 。 某 些 对 等 应 用 程序 (如 网 络 游 戏 ) 便 采用 了 这 种 行为 。 此 外 ，[RFC5382] 还 
规定 NAT 将 会 静默 丢弃 那些 一 无 所 知 的 传人 的 SYN 数据 包 。 这 可 能 会 发 生 在 同时 发 起 一 个 
连接 时 ， 即 当 外 部 主机 的 SYN 数据 包 先 于 内 部 主机 的 SYN 数据 包 到 达 NAT 主机 时 。 虽 然 这 
种 情况 发 生 的 可 能 性 不 大 ， 但 在 出 现时 钟 错 误 时 确实 会 发 生 。 如 果 传 人 的 外 部 SYN 数据 包 被 
丢弃 ， 内 部 的 SYN 数据 包 还 有 时 间 来 建立 这 个 由 外 部 的 SYN 数据 包 代表 的 NAT 映射 。 如 果 
在 6s 之 内 没有 接收 到 内 部 的 SYN 数据 包 ，NAT 可 能 会 向 外 部 主机 发 送 一 个 错误 信号 。 
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7.3.1.2 NAT Ñ UDP 

针对 单 播 UDP 的 NAT 行为 要 求 定义 在 [RFC4787] 中 。NAT 在 处 理 一 系列 UDP 数据 报 
时 所 出 现 的 问题 ， 与 处 理 TCP 时 出 现 的 问题 大 多 数 一 样 。 但 是 UDP 有些 不 同 ,不 像 TCP， 
它 没有 连接 建立 和 清除 的 过 程 。 更 具体 地 说 ， 它 没有 标识 位 ， 如 用 SYN, FIN 和 RST 这 些 
位 来 表示 一 个 会 话 的 创建 或 销毁 。 此 外 ， 一 个 关联 中 的 参与 者 也 未 必 完 全 清楚 。UDP 不 像 
TCP 那样 采用 一 个 4 元 组 来 标识 一 个 连接 ， 相 反 ， 它 是 基于 两 个 端点 的 地 址 / 端口 号 的 组 
合 。 为 了 处 理 这 些 问 题 ， 如 果 一 个 绑 定 在 “近期 ”没有 被 使 用 ，UDP NAT 会 采用 一 个 映射 
计时 器 (mapping timer) 来 清除 NAT 的 状态 。 用 多 大 的 计时 器 值 来 表示 “最 近 ” 变 化 很 大 ， 
而 [RFC4787] 要 求 计时 器 至 少 为 2 分 钟 ， 推 荐 5 分 钟 。 一 个 相关 的 问题 是 计时 器 何 时 刷新 。 
当 数 据 包 从 内 部 传输 到 外 部 时 NAT 就 刷新 ONAT 的 对 外 刷新 行为 ) 或 反之 亦 然 (NAT 的 对 
内 刷新 行为 )。[RFC4787] 要 求 NAT 保证 对 外 的 刷新 行为 。 对 内 的 刷新 行为 是 可 选 的 。 

正如 我 们 在 第 5 章 所 讨论 的 (会 在 第 10 章 再 次 看 到 )，UDP A IP 数据 包 可 以 被 分 片 。 
分 片 允 许 一 个 全 数据 报 跨 越 多 个 块 (碎片 )， 其 中 每 个 都 是 作为 一 个 独立 的 数据 报 。 但 是 ， 
由 于 UDP 是 在 他 层 之 上 ,为 此 除了 第 一 个 分 片 之 外 ， 其 他 的 分 片 并 没有 包含 端口 号 信息 ， 
而 这 是 保证 NAPT 正确 操作 所 必需 的 信息 。 这 同样 也 适用 于 TCP 和 1ICMP。 因 此 ， 在 一 般 情 
况 下 ,分 片 并 不 能 被 NAT 或 NAPT 正确 处 理 。 


7.3.1.3 NAT 和 其 他 的 传输 协议 (DCCP, SCTP) 

尽管 TCP 和 UDP 是 迄今 为 止 使 用 最 广泛 的 互联 网 传输 协议 ， 但 还 有 两 种 其 他 协议 ， 
NAT 已 经 为 或 正在 为 它们 定义 行为 。 数 据 报 拥塞 控制 协定 (Datagram Congestion Control 
Protocol, DCCP) [RFC4340] 提供 拥塞 控制 的 数据 报 服 务 。[RFC5597] 给 出 了 针对 DCCP 的 
NAT 行为 要 求 ，[RFC5596] 修改 了 DCCP 用 于 支持 类 似 于 TCP 的 同时 发 起 连接 的 过 程 。 流 
控制 传输 协议 (Stream Control Transmission Protocol, SCTP) [RFC4960] 提供 了 可 靠 的 报 文 
处 理 服务 ， 可 容纳 拥有 多 个 地 址 的 主机 。[HBA09] 及 [IDSNAT] 给 出 了 NAT 与 SCTP 中 应 注 
意 的 事项 。 


7.3.1.4 NAT 和 ICMP 

ICMP 是 Internet 控制 报 文 协议 ， 在 第 8 章 中 有 详细 描述 。 它 提供 了 关于 P 数据 包 的 状 
态 信 息 ， 也 能 够 用 于 测量 和 收集 网 络 状 态 信息 。[RFC5508] 中 定义 了 ICMP 的 NAT 行为 要 
求 。 在 ICMP 中 使 用 NAT 时 需要 考虑 两 个 问题 。ICMP 有 两 类 报 文 : 信息 类 的 和 出 错 类 的 。 
出 错 类 报 文通 常 包含 一 个 引起 错误 条 件 的 IP 数据 包 (全 部 或 部 分 ) 的 副本 。 它 们 从 错误 被 检 
测 到 的 端点 ， 通 常 是 在 网 络 中 ， 发 送 到 数据 报 的 原始 发 送 方 。 按 说 ， 这 并 没有 任何 困难 ， 但 
是 当 一 个 ICMP 错误 报 文通 过 NAT 时 ， 需 要 改写 “错误 数据 报 ” 的 IP 地址， 以便 它们 能 被 
终端 客户 机 识别 ( 称 为 ICMP 的 修复 行动 (CMP fix-up))。 信 息 类 的 报 文 也 存在 同样 的 问题 ， 
但 在 这 种 情况 下 ， 大 多 数 的 报 文 类 型 是 查询 / 响应 或 客户 机 / 服务 器 性 质 的 ， 还 包括 一 个 类 
似 于 TCP 或 UDP 端口 号 的 查询 ID (Query ID) 字段 。 因 此 ， 人 处 理 这 些 类 型 信息 的 NAT 能 够 
识别 向 外 传输 的 信息 请 求 ， 并 设置 计时 器 用 于 等 待 响应 。 


，7.3.1.5 NAT 和 隧道 数据 包 


在 某 些 情况 下 ， 隧 道 数 据 包 ( 见 第 3 章 ) 也 需要 通过 NAT 发 送 。 当 发 生 这 种 情况 时 ， 
NAT 不 仅 要 修改 人 P 包头 ， 还 需要 修改 封装 在 其 中 的 其 他 数据 包 的 包头 和 有 效 载荷 。 一 个 这 
样 的 例子 是 使 用 点 对 点 隧道 协议 (PPTP， 见 第 3 章 ) 的 通用 路 由 封装 (GRE) 包头 。 当 GRE 
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包头 通过 NAT 时 ， 它 的 Call-ID 域 会 与 NAT (或 其 他 主机 的 隧道 连接 ) 冲突 。 如 果 NAT 没 
能 妥善 处 理 这 一 映射 ， 便 不 能 通信 。 正 如 我 们 可 以 想象 的 ， 更 多 的 封装 层次 只 会 使 NAT 的 
工作 进一步 复杂 化 。 


7.3.1.6 NAT 和 组 播 

到 目前 为 止 ， 我 们 只 讨论 了 NAT 的 单 播 IP 流量 。NAT 也 可 以 被 配置 成 支持 组 播 流量 
( 见 第 9 章 )， 虽 然 这 比较 少见 。[RFC5135] 给 出 了 NAT 在 处 理 组 播 流量 时 的 要 求 。 实 际 上 ， 
为 了 支持 组 播 流量 ， 需 要 用 IGMP 代理 来 增强 NAT (I [RFC4605] 和 第 9 章 )。 此 外 ， 从 位 
于 NAT 内 部 的 主机 发 送 到 外 部 的 数据 包 的 目的 IP 地址 和 端口 不 会 被 修改 。 从 内 部 传输 到 外 
部 的 流量 ， 其 源 地 址 和 端口 号 可 根据 单 播 UDP 行为 修改 。 


7.3.1.7 NAT 和 IPv6 

KF NAT 在 IPv4 中 的 广泛 使 用 ,很 自然 地 会 想到 是 否 能 够 在 IPv6 中 使 用 NAT。 目 前 ， 
这 是 一 个 有 争议 的 问题 [RFC5902]。 对 于 许多 协议 设计 者 而 言 ，NAT 出 现 了 一 个 必要 却 不 可 
取 的 “缺点 ”一 一 大 大 地 增加 了 设计 其 他 协议 的 复杂 性 。 由 于 在 IPv6 中 没有 必要 节省 地 址 
空间 ， 而 其 他 的 NAT 特性 (例如 ， 防 火 墙 功能 ， 拓 扑 隐 藏 和 隐私 ) 也 能 通过 本 地 网 络 保护 
(Local Network Protection, LNP) 来 提供 ， 因 此 人 们 坚决 抵制 在 IPv6 中 使 用 NAT [RFC4864]. 
LNP 代表 在 IPv6 中 达到 或 者 超过 NAT 性 能 的 技术 集合 。 

除了 具备 包 过 滤 属 性 ，NAT 还 支持 多 个 地 址 范围 共存 ， 能 够 避免 当 站 点 切换 ISP 时 需 
要 改变 其 IP 地 址 的 问题 。 例 如 ，[RFC4193] 定义 了 唯一 的 本 地 IPv6 单 播 地 址 (Unique Local 
IPv6 Unicast Addresses，ULA )， 能 够 为 被 称 为 NPTv6[RFC6296] 的 尚 处 于 实验 阶段 的 IPv6 
到 IPv6 前 缀 转换 所 采用 。 它 采用 了 一 种 算法 而 不 是 一 个 表格 ， 基 于 前 缀 将 一 个 IPv6 地 址 转 
换 为 其 他 的 (不 同 的 ) IPv6 地 址 (例如 ， 在 不 同 的 地 址 范围 中 )， 因 此 不 需要 像 传统 的 NAT 
那样 需要 维护 单个 连接 的 状态 。 此 外 ， 该 算法 需要 修改 地 址 以 保证 通用 传输 协议 (TCP， 
UDP) 的 “ 校 验 和 ”计算 值 保持 不 变 。 由 于 不 需要 修改 网 络 层 之 上 的 数据 包 中 的 数据 ， 也 不 
需要 访问 传输 层 的 端口 号 ， 因 此 该 方法 显著 地 降低 了 NAT 的 复杂 性 。 然 而 ， 需 要 访问 NAT 
外 部 地 址 的 应 用 程序 必须 使 用 NAT 穿越 方法 或 依赖 于 ALG。 此 外 ，NPTv6 本 身 并 不 提供 防 
火 墙 的 包 过 滤 功 能 ， 因 此 必须 考虑 额外 的 部 署 。 


7.3.2 地址 和 端口 转换 行为 


NAT 的 操作 方式 差别 很 大 。 大 部 分 的 细节 涉及 具体 的 地 址 和 端口 映射 。IETF 工作 组 
BEHAVE 的 主要 目标 之 一 是 要 阐明 共同 行为 ,规定 哪 些 是 最 合适 的 。 为 了 更 好 地 理解 所 涉及 
的 问题 ,我 们 从 一 个 通用 的 NAT 映射 例子 开始 ( 见 图 7-5 )。 

在 图 7-5 中 ,我 们 使 用 符号 Xx 表示 在 私有 地 址 范围 (内 部 主机 ) 中 的 主机 使 用 IP 地 址 
X. 端口 号 x (对 于 ICMP， 采 用 查询 ID 代替 端口 号 ) 。 通 常 工 取 自 于 定义 在 [RFC1918] 中 的 
私有 IPv4 地 址 空间 。 为 了 连接 到 远程 地 址 / 端口 组 合 YFy，NAT 需要 使 用 一 个 外 部 地 址 ( 通 
常 是 公共 的 和 全 局 路 由 的 ) X1 和 端口 号 xl' 来 创建 一 个 映射 。 假 设 内 部 主机 先 连 接 到 了 1:y1， 
再 连接 到 Y2:y2, NAT 则 需 先 创建 映射 X1':x1'， 再 创建 映射 X22’, TEKS RAUL PF, X 
等 于 到 '， 因 为 大 多 数 网 站 只 使 用 一 个 全 局 路 由 的 IP 地 址 。 如 果 x1' 等 于 x2'， 映 射 则 被 认为 
是 重复 使 用 的 。 如 果 x*l' 和 x2' 均 与 x 相等 ，NAT 实现 前 面 提 到 过 的 端口 保留 。 在 某 些 情况 
下 ， 端 口 保留 是 不 可 能 的 ， 所 以 NAT 必须 处 理 图 7-4 所 示 的 端口 冲突 。 
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外 部 
(外 部 地 址 ， 公 共 的 ) 


内 部 
(内 部 地 址 ， 私 有 的 ) 


图 7-5 NAT 地址 和 端口 行为 是 由 映射 基于 的 内 容 刻 画 的 。 内 部 主机 使 用 IP 地 址 :端口 夭 x 来 联系 
Y1:y1 和 了 Y2:y2。 在 NAT 这 些 关 联 中 使 用 的 地 址 和 端口 分 别 是 X1':x1' 和 XY2':x2'。 如 果 对 于 任何 
Yl1:y1 或 者 72:y2，X1':x1' 等 于 X2':x2'， 则 NAT 存在 独立 于 端点 的 映射 。 若 当 且 仅 当 vl 等 于 
Y2 Rt, Xxl AEF Ax, W NAT 存在 地 址 相关 的 映射 。 若 当 且 仅 当 7l:y1 等 于 72:y2 时 ， 
XVl ASF X2':x2', M NAT 存在 地 址 和 端口 相关 的 映射 。 若 NAT 的 外 部 地 址 是 在 没有 考 
虑 内 部 或 者 外 部 地 址 情况 下 选择 的 ， 则 拥有 多 个 外 部 地 址 的 NAT ( 即 其 中 X 可 能 不 等 于 22') 
有 一 个 任意 地 址 池 行 为 。 另 外 还 有 一 个 选择 ， 它 可 能 有 一 个 配对 池 行为 ， 在 这 种 情况 下 任何 与 
71 相关 的 关联 均 使 用 相同 的 如 


表 7-1 和 图 7-5 概括 了 由 [RFC4787] 定义 的 各 种 NAT 端口 和 地 址 行为 。 表 7-1 使 用 类 
似 的 术语 定义 了 在 7.3.3 节 中 介绍 过 的 过 滤 行 为 。 在 所 有 常见 的 传输 层 协 议 中 ， 包 括 TCP 和 
UDP， 所 需 的 NAT 地 址 和 端口 处 理 行为 是 独立 于 端点 的 (在 ICMP 中 推荐 使 用 类 似 行为 )。 
这 项 规定 的 目的 是 帮助 应 用 程序 确定 一 个 确保 流量 能 够 正常 工作 的 外 部 地 址 。 我 们 将 在 7.4 
节 讨论 NAT 穿越 时 更 加 详细 地 讨论 这 些 。 


表 7-1 NAT 的 全 局 行为 将 由 其 转换 和 过 滤 行 为 定义 。 这 些 都 可 能 是 独立 于 
主机 地 址 、 依 赖 于 地 址 ， 或 依赖 于 地 址 和 端口 号 














对 于 所 有 的 Y2:y2, Xl':x1' = 
X2':x2" (必需 的 ) 


只 要 任何 Xxl 存在 ， 就 允许 X 的 任何 数据 包 GE 
荐 用 于 最 大 透明 性 ) 
只 要 XIRKA YI, BAA ZL:y1 到 XI:xl 的 数 
据 包 (推荐 用 于 更 为 严格 的 过 滤 ) 


只 要 YI 之 前 联系 过 71:?1， 就 允许 从 Yiyi 到 区 :xl 的 
数据 包 





独立 于 端点 的 










依赖 于 地 址 的 





"= X2':x2' HANK 
= ¥2:y2 







依赖 于 地 址 和 端口 的 


如 前 所 述 ，NAT 可 能 有 几 个 可 用 的 外 部 地 址 。 这 个 地 址 集 通 常 被 称 为 NAT 池 (NAT 
pool) 或 者 NAT 地 址 池 (NAT address pool)。 多 数 中 型 到 大 型 的 NAT 使 用 地 址 池 。 请 注意 ， 
NAT 地 址 池 和 在 第 6 章 中 讨论 的 DHCP 地 址 池 不 同 ， 当 然 一 台 设 备 可 能 需要 同时 处 理 NAT 
Al DHCP 地 址 池 。 在 这 种 环境 中 的 一 个 问题 是 ， 当 位 于 NAT 后 的 一 个 主机 同时 发 起 多 个 连 
接 ， 此 时 是 不 是 为 每 个 连接 分 配 相同 的 外 部 IP 地 址 ( 称 为 地 址 配对 (pairing)) ? 如果 没 有 
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限制 哪个 外 部 地 址 用 于 关联 ， 一 个 NAT AY IP 地 址 池 的 行为 (IP address pooling behavior) 被 
认为 是 任意 (arbitrary) 的 。 如 果 它 实现 地 址 配对 ， 它 就 被 称 为 被 配对 (paired)。 配 对 是 所 有 
传输 层 的 推荐 NAT 行为 。 如 果 未 使 用 配对 ， 内 部 主机 的 通信 对 等 端 可 能 会 错误 地 断定 ， 它 
正 与 不 同 的 主机 进行 通信 。 对 于 只 有 一 个 外 部 地 址 的 NAT， 这 显然 不 成 问题 。 

一 种 脆弱 的 NAT 类 型 不 仅 需要 重 载 地 址 ， 也 需要 重 载 端口 ( 称 为 端口 重 载 port 
overloading) )。 在 这 种 情况 下 ， 多 个 内 部 主机 的 流量 可 能 被 修改 为 相同 的 外 部 IP 地 址 和 端口 
号 (port number)。 这 是 一 种 危险 的 情况 ， 因 为 如 果 多 台 内 部 主机 同时 访问 同一 台 外 部 主机 
上 的 服务 ， 那 么 当 流 量 从 外 部 主机 返回 时 便 无 法 找到 适当 的 目的 地 址 。 对 于 TCP 而 言 ， 这 
是 由 多 个 外 部 连接 共享 连接 标识 符 的 4 元 组 ( 源 和 目标 地 址 及 端口 号 ) 所 导致 的 结果 。 现 在 
这 种 行为 是 不 允许 的 。 

一 些 NAT 实现 了 一 个 特殊 的 功能 ， 称 为 端口 奇偶 性 (port parity)。 这 种 NAT 尝试 保持 
端口 号 (奇数 或 偶数 ) 的 奇偶 性 。 因 此 ， 如 果 xl 是 偶数 ， 那 么 x1' 也 是 偶数 ， 反 之 亦 然 。 虽 
然 不 如 端口 保留 那么 强大 ， 但 这 样 的 行为 有 时 对 于 使 用 特殊 端口 的 特定 应 用 协议 还 是 非常 有 
用 的 (例如 ， 简 称 为 RTP 的 实时 协议 (Real-Time Protocol)， 历 来 使 用 多 个 端口 ， 当 然 也 有 
方法 来 避免 出 现 这 种 问题 [RFC5761])。NAT 推荐 保持 端口 的 奇偶 性 ， 但 并 不 是 必需 的 。 随 
着 更 复杂 的 NAT 传输 方法 的 普及 ， 这 种 特性 也 变 得 越 来 越 不 重要 。 


7.3.3 过滤 行为 


当 NAT 为 一 个 TCP 连接 、UDP 关联 或 各 种 形式 的 ICMP 流量 创建 一 个 绑 定 ， 不 仅 要 创 
建 地 址 和 端口 映射 ， 作 为 一 个 防火 墙 ， 还 必须 确定 返回 流量 的 过 滤 行 为 ， 这 是 非常 常见 的 情 
况 。NAT 所 执行 的 过 滤 类 型 ， 尽 管 在 逻辑 上 与 地 址 和 端口 处 理 行为 不 同 ， 但 常常 是 相关 的 。 
尤其 是 使 用 相同 的 术语 : 独立 于 端点 ， 依 赖 于 地 址 ， 依 赖 于 地 址 和 端口 。 

一 个 NAT 的 过 滤 行 为 通常 与 它 是 否 已 经 建立 了 一 个 地 址 映射 相关 。 显 然 ， 若 NAT Hik 
乏 任 何 形式 的 地 址 映射 ,那么 它 无 法 转发 从 外 到 内 的 任何 流量 ,这 是 由 于 它 不 知道 需要 使 用 
的 内 部 目标 。 对 于 外 出 流量 最 为 常见 的 情况 ， 是 当 创 建 一 个 绑 定时 ， 相 关 返 回流 量 的 过 滤 功 
能 将 被 禁止 。 对 独立 于 端点 的 NAT 行为 ， 只 要 为 内 部 主机 创建 了 映射 ,无 论 来 源 如 何 ， 都 
将 允许 任何 传人 的 流量 。 对 依赖 于 地 址 的 过 滤 行 为 ， 仅 当 Xl:xl Za YIN, AE 
Yi:yl 传输 流量 到 和 :x1。 对 于 那些 依赖 于 地 址 和 端口 的 NAT 过 滤 行 为 ， 仅 当 如 :xl 之 前 访 
问 过 Yievl 时 ， 才 允许 Yy 传输 流量 到 X1:x1。 最 后 两 个 之 间 的 区 别 是 ， 后 面 那个 只 是 将 端 
HS yl 考虑 进去 了 。 


7.3.4 F NAT 之 后 的 服务 器 


采用 NAT 的 主要 问题 之 一 ， 就 是 从 外 网 无 法 直接 访问 位 于 NAT 之 后 的 主机 提供 的 服 
务 。 再 次 考虑 图 7-3 中 的 例子 。 如 果 地 址 为 10.0.0.3 的 主机 向 互联 网 提供 服务 ， 如 果 没 有 
NAT 的 参与 便 无 法 被 访问 到 ， 至 少 存在 如 下 两 个 原因 。 首 先 ，NAT 作为 互联 网 路 由 器 ， 它 
必须 同意 转发 目的 地 为 10.0.0.3 的 传人 流量 。 其 次 ， 更 为 重要 的 是 ， 从 互联 网 无 法 路 由 到 IP 
地 址 10.0.0.3， 互 联网 中 的 主机 也 无 法 识别 该 地 址 。 相 反 ，NAT 的 外 部 地 址 被 用 于 查找 服务 
ft, NAT 必须 妥善 重 写 和 转发 到 达 服 务 器 的 适当 流量 ， 以 便 它 可 以 操作 。 这 个 过 程 通常 称 为 
端口 转发 (port forwarding) 或 端口 映射 (port mapping). 

通过 端口 转发 ， 进 入 NAT 的 流量 被 转发 到 一 个 位 于 NAT 后 面 的 特定 配置 的 目的 地 址 。 
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通过 采用 NAT 端口 转发 ， 就 可 以 让 服务 器 给 互联 网 提供 服务 ， 即 使 它们 被 分 配 了 私有 的 、 不 
可 路 由 的 地 址 。 端 口 转发 ， 通 常 需要 采用 转发 到 的 服务 器 的 地 址 和 端口 号 来 静态 配置 NAT。 
端口 转发 就 像 一 个 始终 存在 的 静态 NAT 映射 。 如 果 服 务 器 的 IP 地 址 被 更 改 ，NAT 必须 更 新 
寻 址 信息 。 端 口 转发 也 有 局 限 性 ， 只 有 一 个 端口 号 集合 用 于 绑 定 每 个 ( 卫 地址， 传输 协议 ) 
组 合 。 因 此 ， 如 果 NAT 只 有 一 个 外 部 IP 地 址 ， 它 最 多 将 相同 传输 协议 的 一 个 端口 转发 到 一 
个 内 部 机 器 (例如 ， 它 不 能 支持 通过 TCP 80 端口 访问 内 部 的 两 台独 立 的 Web 服务 器 )。 


7.3.5 发 夹 和 NAT 环 回 


当 客户 希望 访问 位 于 同一 个 NAT 私有 地 址 空间 内 的 服务 器 时 ， 会 导致 一 个 有 趣 的 问题 。 
能 够 支持 这 种 场景 的 NAT 需要 实现 发 夫 (hairpinning) 或 者 NAT 环 回 (NAT loopback), & 
考 图 7-6， 假 设 主机 XI 试图 建立 一 个 到 主机 X2 
的 连接 。 如 果 XI 知道 私有 地 址 信息 ，X2: x2， 这 
没有 任何 问题 ， 因 为 可 以 直接 进行 连接 。 然 而 ， 
在 某 些 情况 下 XI 只 知道 公用 地 址 信息 ， 妈 ?xz2'。 
在 这 些 情况 下 , 姑 借 助 NAT 采 用 目的 地 址 
X2':x2' 尝试 连接 X2. ~4 NAT 意识 到 在 如 ':x2' 和 
X2:x2 之 间 存 在 映射 , 并 将 数据 包 转 发 到 位 于 
NAT 私有 地 址 空间 内 的 到 :xz2 时 ， 会 触发 发 夹 过 
程 。 此 时 会 出 现 一 个 问题 ， 目 的 是 如 :x2 的 数据 7-6 一 个 实现 了 发 来 或 者 NAT 环 回 的 NAT 
包头 部 中 的 源 地 址 应 该 是 XY:x1 还 是 X1x]? spe A a 8 ie 

如 果 NAT 给 如 的 发 夹 数据 包 的 源 地 址 信息 ee ae 
是 各 'x1'， 那 么 这 种 NAT 被 称 为 有 “外 部 源 IP hen Sen ae 
地 址 和 端口 ”的 发 夹 行为 。 这 种 行为 是 TCP NAT j i 
所 必需 的 [RFC5382]。 之 所 以 需要 这 种 行为 ， 是 为 了 均 采 用 全 局 路 由 地 址 的 应 用 能 够 识别 对 
方 。 在 我 们 的 例子 中 ， 了 2 可 能 期 望 一 个 来 自 于 如 ' (例如 ， 因 为 第 三 方 系统 的 协调 ) 的 连接 。 





7.3.6 NAT 编辑 器 


总 之 ， 大 多 数 IP 流量 均 使 用 UDP 和 TCP 传输 协议 在 互联 网 上 进行 传输 。 这 些 传输 协 
议 ， 自 己 就 可 以 很 好 地 被 NAT 支持 ， 而 无 须 增加 额外 的 复杂 性 ， 这 是 因为 它们 的 格式 是 很 
好 理解 的 。 当 应 用 层 协议 与 它们 一 起 携带 传输 层 或 更 低层 的 信息 ， 如 IP 地 址 ，NAT 的 问题 
就 会 变 得 复杂 得 多 。 最 常见 的 例子 是 FTP[RFC0959]。 在 正常 操作 中 ， 它 交换 传输 及 网 络 
层 的 端点 信息 (IP 地 址 和 端口 号 )， 所 以 当 要 传输 大 量 数据 时 可 以 增加 额外 的 连接 。 这 需要 
NAT 不 仅 改 写 数 据 报 的 IP 和 TCP 部 分 中 的 IP 地址 和 端口 号 ， 而且 也 需要 修改 有 些 应 用 的 
有 效 载 荷 本 身 。 具 有 这 种 能 力 的 NAT 有 时 也 被 称 为 NAT 编辑 器 (NAT editor)。 如 果 NAT 改 
变 了 包 的 应 用 载荷 大 小 ， 接 着 需要 更 多 的 工作 要 做 。 例 如 ，TCP 为 数据 传输 中 的 每 个 字 节 分 
配 了 一 个 序列 号 ( 见 第 15 章 )， 所 以 如 果 一 个 数据 包 的 大 小 改变 了 ， 序 列 号 也 需要 相应 地 修 
改 。PPTP[RFC2637] 在 进行 透明 操作 时 便 需 要 NAT 编辑 器 ( 见 第 3 章 )。 


7.3.7 服务 提供 者 NAT 和 服务 提供 者 IPv6 转换 
一 个 相对 较 新 的 发 展 方向 是 将 NAT 从 客户 端 移动 到 SP 端 。 这 被 称 为 服务 提供 者 NAT 
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( service provider NAT, SPNAT), 2# Ñ NAT ( carrier-grade NAT，CGN), 或 大 规模 NAT 
(large-scale NAT，LSN)， 目 的 是 为 了 进一步 减轻 IPv4 地 址 枯竭 的 问题 。 采 用 SPNAT， 可 以 
想象 许多 ISP 的 客户 可 以 共享 一 个 单一 的 全 局 IPv4 地 址 。 实 际 上 ， 这 是 将 汇聚 点 从 客户 这 
边 转移 到 了 ISP 那 边 。 在 基本 形式 中 ， 常 规 NAT 和 SPNAT 之 间 没 有 功能 上 的 差异 ， 区 别 只 
在 于 推荐 的 使 用 域 。 然 而 ， 将 NAT 功能 从 客户 端 转移 到 ISP 端 也 带 来 了 新 的 安全 隐患 ， 最 
终 用 户 是 否 能 够 部 署 网 络 服务 器 和 控制 防火 墙 策略 也 成 了 一 个 问题 [MBCB08]。2009 年 以 来 
的 研究 发 现 ， 很 多 用 户 由 于 使 用 了 对 等 程序 ， 因 此 愿意 接受 进来 的 连接 [ANM09]。 

SPNAT 有 助 于 解决 IPv4 地 址 枯竭 的 问题 ,但 IPv6 才 是 最 终 的 解决 方案 。 然 而 出 于 各 种 
已 经 讨论 过 的 原因 ，IPv6 部 署 已 落后 于 预期 。 最 初 ， 双 协议 栈 方 案 ( 见 [RFC4213])， 即 每 
个 系统 同时 使 用 IPv6 和 IPv4 地 址 ， 被 提出 用 于 支持 向 IPv6 过 渡 ， 但 这 种 做 法 在 IPv4 地 址 
耗 尽 之 前 只 是 暂时 、 不 那么 必要 的 。 目 前 正在 采用 更 为 务实 的 方法 ,就 是 在 各 种 配置 中 结合 
隧道 、 地 址 转换 、 双 协议 栈 系统 多 种 技术 。 在 介绍 完 为 处 理 现 有 的 NAT 而 开发 的 方法 之 后 ， 
我 们 将 在 7.6 节 中 探讨 这 些 。 


7.4 NAT 穿越 


鉴于 将 ALG 和 NAT 编辑 器 放置 于 NAT 设备 中 的 复杂 性 ， 一 种 可 替代 的 方法 是 应 用 程 
序 自己 尝试 执行 NAT FA (NAT traversal) 。 此 时 应 用 程序 需要 确定 其 流量 通过 NAT 时 使 用 
的 外 部 IP 地 址 和 端口 号 ， 并 对 其 协议 操作 做 相应 的 修改 。 如 果 一 个 应 用 程序 分 布 在 整个 网 络 
中 (例如 ， 有 多 个 客户 端 和 服务 器 ， 其 中 一 些 并 不 在 NAT 后 )， 服 务 器 可 为 位 于 NAT 后 的 客 
户 端 之 间 传 递 (拷贝 ) 数据 ， 或 者 使 这 样 的 客户 端 发 现 对 方 的 NAT 绑 定 ， 并 促成 它们 之 间 的 
直接 通信 。 使 用 一 台 服 务 器 在 客户 端 之 间 进 行 数据 拷贝 是 不 得 已 的 选择 ， 因 为 这 其 中 会 涉及 
负载 和 潜在 的 滥用 。 因 此 ， 大 多 数 时 候 是 尝试 提供 一 些 方法 ， 以 便 允 许 客户 机 之 间 直 接 通 信 。 

直接 通信 的 方法 在 对 等 文件 共享 、 游 戏 和 通信 应 用 中 已 经 非常 广泛 。 然 而 ， 这 种 技术 
往往 局 限于 某 一 特定 的 应 用 程序 ， 这 意味 着 每 一 个 需要 NAT 穿越 的 新 分 布 式 应 用 程序 ， 均 
倾向 于 实现 自己 的 方法 。 这 可 能 会 导致 元 余 和 互 操作 性 问题 ， 最 终 增加 了 用 户 的 挫败 感 和 成 
本 。 为 了 应 付 这 种 情况 ,已 经 建立 了 一 个 处 理 NAT 穿越 的 标准 方法 ， 它 取决 于 几 个 我 们 在 
下 面 的 章节 中 讨论 的 不 同 从 属 协 议 。 现 在 ,我 们 先 从 其 中 一 个 为 分 布 式 应 用 所 采用 、 健 壮 但 
尚未 成 为 标准 的 方法 开始 。 紧 接着 ,我们 来 标准 化 NAT 穿越 的 框架 。 


7.4.1 针 孔 和 打 孔 


如 前 所 述 ， 一 个 NAT 通常 包括 流量 重 写 和 过 滤 功 能 。 当 一 个 NAT 映射 创建 时 ， 针 对 特 
定 应 用 程序 的 流量 通常 允许 在 NAT 的 两 个 方向 传输 。 这 种 映射 是 临时 的 ， 通常 只 适用 于 在 
执行 时 间 内 的 单一 应 用 程序 。 这 类 映射 被 称 为 针 孔 (pinhole)， 因 为 它们 被 设计 为 只 允许 通过 
一 部 分 的 临时 信息 流量 (例如 ,一 对 IP 地 址 和 端口 号 组 合 )。 随 着 程序 之 间 的 通信 ， 针 和 孔 通 
常 动态 地 创建 和 删除 。 

通过 采用 针 孔 试图 使 位 于 NAT 之 后 的 两 个 或 两 个 以 上 的 系统 直接 通信 的 方法 称 为 打 孔 
(hole punching), [RFC5128] 的 3.3 节 描 述 了 针对 UDP 的 打 孔 ，3.4 节 描 述 针对 TCP 的 打 孔 。 
为 了 打 一 个 孔 ， 一 个 客户 机 需 通过 一 个 向 外 的 连接 来 访问 一 台 已 知 的 服务 器 ， 这 样 便 在 本 地 
的 NAT 中 创建 了 一 个 映射 。 当 另 一 个 客户 机 访问 同一 台 服 务 器 时 ， 由 于 服务 器 和 每 个 客户 
机 均 有 连接 ， 因 此 知道 它们 的 外 部 寻 址 信息 。 它 然后 在 客户 机 之 间 交 换 它 们 的 外 部 寻 址 信 
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息 。 一 旦 知道 了 这 个 信息 ， 一 个 客户 机 便 可 以 尝试 直接 连接 到 其 他 的 客户 机 。 流 行 的 对 等 应 
用 Skype 便 使 用 了 这 种 方法 (和 其 他 一 些 方法 )。 

参照 图 7-7， 假 设 客户 机 A 访问 服务 器 S1， 然 后 客户 机 B 也 访问 服务 器 S1。S1 会 知道 
A 和 B 的 外 部 寻 址 信息 : 分 别 为 IPv4 地 址 192.0.2.201 和 203.0.113.100。 将 B 的 信息 发 送 给 
A (反之 亦 然 )，A 可 以 尝试 利用 B 的 外 部 地 址 直接 联系 B (反之 亦 然 )。 这 是 否 有 效 取 决 于 已 
部 署 的 NAT 类 型 。 对 于 连接 ( A,S1 )， 其 NAT 状态 在 N1 中 ， 对 于 连接 (B,S1), HŒ NAT 状 
态 同时 在 N2 和 N3 中 。 如 果 所 有 NAT 独立 于 端点 ， 这 些 信 息 便 足够 使 直接 通信 成 为 可 能 。 
由 于 任何 其 他 类 型 的 NAT 将 不 会 接受 除了 S1 之 外 的 流量 ， 从 而 阻止 直接 通信 。 换 句 话说 ， 
如 果 两 台 主机 均 位 于 具备 依赖 于 地 址 或 者 同时 依赖 于 地 址 和 端口 映射 行为 的 NAT 之 后 ， 那 
么 这 种 方法 是 行 不 通 的 。 








公共 全 地 址 : 203.0.113.100 
(由 ISP 分 配 ) 


公共 下 地 址 :192.0.2.201 
( H ISP 分配) 


192.168.0.254 


A A ia 7 
baii 10.0.1.1 
192.168.0.1 Sa a 







客户 机 A 192.168.0.1 j 
客户 机 B 
图 7-7 位 于 NAT 后 的 客户 机 上 运行 的 应 用 程序 可 能 需要 一 台 服 务 器 的 协助 ， 以 便 能 够 直接 进行 通信 。 
在 打 孔 中 ， 专 门 运行 特定 应 用 程序 的 服务 器 为 客户 机 之 间 交 换 信息 用 以 建立 NAT 状态， 如果 
可 能 的 话 便 可 直接 进行 通信 。 当 通过 NAT 时 ,通过 使 用 标准 的 通用 协议 ,一 些 应 用 尝试 “ 确 
定 ”( 确 定 和 维护 ) 其 流量 将 被 分 配 的 地 址 (和 端口 号 )。 在 某 些 情况 下 这 些 方 法 将 会 遇 到 麻烦 ， 
如 在 多 层次 的 NAT 环境 中 。 在 这 个 例子 中 , 在 S1 中 客户 机 A 的 外 部 可 见地 址 是 192.0.2.201， 
客户 机 B 的 是 203.0.113.100。 然 而 在 S2 中 ， 客 户 机 B 的 外 部 地 址 是 10.0.1.1 


7.4.2 单 边 的 自 地 址 确定 


应 用 程序 使 用 一 系列 方法 来 定位 其 流量 在 通过 NAT 时 所 采用 的 地 址 。 这 便 称 为 确定 
(fixing) 〈 学 习 和 维护 ) 地 址 信息 。 地 址 确定 的 方法 分 为 直接 和 间接 两 种 。 间 接 方法 涉及 通过 
与 NAT 交换 流量 来 推测 其 行为 。 直 接 方法 涉及 应 用 程序 和 NAT 本 身 之 间 通 过 一 个 或 者 多 个 
特殊 协议 (目前 还 不 是 IETF 的 标准 ) 来 进行 直接 会 话 。IETF 花费 了 很 大 的 精力 来 发 展 被 特 
定 应 用 程序 所 广泛 采用 的 间接 方法 ， 其 中 为 最 知名 的 便 是 VoIP 应 用 。 目 前 部 分 NAT 也 能 够 
支持 一 些 直接 方法 。 这 些 方法 也 为 NAT 的 基本 配置 做 准备 ， 因 此 我 们 将 在 NAT 的 安装 和 配 
置 中 对 其 进行 讨论 。 

ERA NAT 协助 的 情况 下 一 个 应 用 程序 尝试 确定 地 址 ， 所 执行 的 地 址 确定 被 称 为 是 
单 边 类 型 的 。 这 样 做 的 应 用 程序 被 称 为 是 执行 单 边 的 自 地 址 确定 ( UNilateral Self-Address 
Fixing, UNSAF) [RFC3424]。 顾 名 思 义 ,这 种 方法 从 长 远 来 看 被 认为 是 不 可 取 的 ,但 暂时 
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却 是 必要 的 。UNSAF 会 涉及 一 套 启 发 式 ， 它 们 并 不 能 保证 在 所 有 情况 下 都 能 工作 ， 特 别 是 
因为 NAT 的 行为 受 供应 商 和 特定 环境 的 影响 变化 很 大 。 之 前 提 到 的 BEHAVE 文档 ， 其 目标 
就 是 让 NAT 的 行为 更 为 一 致 。 如 果 被 广泛 采用 ，UNSAF 方法 工作 起 来 将 更 为 可 靠 。 

在 大 多 数 感 兴趣 的 情况 下 ，UNSAF 采用 类 似 打 孔 的 客户 机 /服务 器 操作 方式 ,但 增加 
了 普 适 性 。 图 7-7 说 明了 一 些 在 这 种 情况 下 可 能 出 现 的 危害 。 其 中 一 个 问题 就 是 每 一 台 NAT 
缺乏 一 个 单一 的 “外 部 ”地 址 范围 。 在 这 个 例子 中 ， 在 客户 端 B 和 服务 器 S1 之 间 有 两 层 
NAT。 这 种 情况 可 能 会 导致 复杂 性 。 例 如 ， 如 果 B 上 的 应 用 希望 通过 一 台 服 务 器 的 UNSAF 
获得 其 “外 ” 地址， 根据 它 是 和 服务 器 S1 通信 还 是 和 服务 器 S2 通信， 将 会 收 到 不 同 的 回复 。 
最 后 ， 因 为 UNSAF 使 用 不 同 于 NAT 的 服务 器 ， 始 终 存 在 这 种 可 能 性 ， 即 NAT 的 行为 报告 
会 随时 间 而 改变 ,或 者 与 UNSAF 方法 报告 不 一 致 。 

鉴于 NAT 和 UNSAF 存在 的 各 种 问题 ，IAB 一 一 一 个 在 IETF 中 被 推选 出 来 的 架构 顾问 
组 ， 指 出 UNSAF 协议 方案 必须 回答 针对 它们 规格 的 考虑 : 

1. 定义 一 个 “短期 ”的 UNSAF 方案 解决 有 限 范围 问题 。 

2. 定义 一 个 退出 策略 / 过 渡 计 划 。 

3. 讨论 什么 设计 方案 使 得 该 方法 变 得 “脆弱 ”。 

4. 确定 长 期 、 完 善 的 技术 解决 方案 的 要 求 。 

5. 讨论 任何 知名 的 实际 问题 ， 或 已 知 的 经 验 。 

这 是 针对 协议 规范 规定 提出 的 一 个 不 寻常 的 列表 ， 但 它 来 自 于 不 同 的 NAT 和 NAT 穿越 
技术 之 间 长 期 存在 的 互 操作 性 问题 。 尽 管 存在 上 述 问题 ，UNSAF 方法 还 是 被 经 常 使 用 ， 部 
分 原因 是 当前 许多 NAT 并 没有 一 致 的 行为 。 我 们 现在 就 来 看 看 这 些 方法 如 何 使 用 积木 的 方 
式 来 构建 强大 的 、 通 用 的 NAT 传输 技术 ， 以 最 大 限度 地 促成 位 于 NAT 后 的 系统 之 间 的 通 
信 ， 甚 至 使 跨越 多 个 NAT 系统 之 间 的 通信 成 为 可 能 ， 正 如 图 7-7 所 示 。 


7.4.3 NAT 的 会 话 穿越 工具 


一 个 UNSAF 和 NAT 穿越 的 主要 功能 ， 就 是 NAT 会 话 穿越 工具 (Session Traversal 
Utilities for NAT, STUN) [RFC5389]。STUN 源 自 于 UDP 简单 隧道 穿越 NAT(Simple Tunneling 
”of UDP through NAT)， 现 在 被 称 为 “经 典 的 STUN”。 经 典 STUN 已 经 在 VoIP/SIP 应 用 
中 使 用 了 一 段 时 间 ， 但 已 被 修改 为 一 个 可 以 为 其 他 需要 NAT 穿越 的 协议 使 用 的 工具 。 需 
要 完整 NAT 穿越 解决 方案 的 应 用 ， 建 议 先 从 我 们 将 在 7.4.5 节 讨 论 (例如 ，ICE 和 SIP 出 
站 ) 的 其 他 机 制 开始 。 这 些 框架 可 以 以 一 种 或 多 种 特定 方式 来 使 用 STUN， 被 称 为 STUN 用 
法 (usage)。 用 法 可 能 会 扩展 STUN 的 基本 操作 、 报 文 类 型 ， 或 在 [RFC5389] 定义 的 错误 代 
码 集 。 

STUN 是 一 个 相对 简单 的 客户 机 / 服务 器 协议 ， 它 能 够 在 多 种 环境 中 确定 在 NAT 中 使 用 
的 外 部 IP 地 址 和 端口 号 。 它 也 可 以 通过 保持 激活 的 信息 来 维持 当前 的 NAT 绑 定 。 它 需要 在 
NAT 一 侧 存 在 一 台 有 效 的 “其 他 ”合作 服务 器 ， 以 及 几 台 被 配置 了 全 局 IP 地 址 的 可 在 互联 
网 上 被 访问 到 的 公共 STUN 服务 器 。 STUN 服务 器 的 主要 工作 是 回 显 发 送 给 它 的 STUN 请 求 ， 
以 确定 客户 端的 寻 址 信息 。 与 一 般 UNSAF 方法 相 比 ， 该 方法 并 非 万 无 一 失 。 但 是 STUN 的 
好 处 是 它 并 不 需要 修改 网 络 路 由 器 、 应 用 协议 或 者 服务 器 。 它 仅 需 要 客户 端 实现 STUN 请 求 
协议 ， 以 及 至 少 一 台 在 适当 位 置 可 用 的 STUN 服务 器 。STUN 被 设想 为 一 种 “临时 ”的 解决 
方案 ， 直 到 制定 和 实施 更 复杂 的 直接 协议 ， 或 由 于 IPv6 的 广泛 采用 而 使 得 NAT 成 为 过 时 的 
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(正如 目前 许多 在 创建 之 后 被 普遍 使 用 了 10 年 甚至 更 长 时 间 的 标准 协议 )。 

STUN 操作 使 用 UDP、TCP 或 具备 传输 层 安全 性 ( Transport Layer Security, TLS) 的 
TCP ( 见 第 18 章 )。STUN 用 法 规范 定义 特定 用 法 所 支持 的 传输 协议 。 它 为 UDP 和 TCP 使 
用 3478 端口 ， 为 TCP/TLS 使 用 3479 端口 。STUN 基础 协议 有 两 种 类 型 的 事务 : 请 求 / 响应 
事务 (request/response transactions) 和 标志 事务 (indication transactions)。 标 志 不 需要 响应 ， 
并 可 以 通过 客户 机 或 服务 器 生成 。 所 有 的 信息 包含 类 型 、 长 度 、 值 为 0x2112A442 的 魔术 
cookie， 以 及 一 个 随机 的 96 位 事务 ID 用 于 匹配 请 求 与 响应 或 调试 。 每 个 报 文 始 于 2 个 0 位 ， 
并 可 能 包含 零 个 或 多 个 属性 ( attribute)。 支 持 特定 的 STUN 使 用 的 方法 (method) 在 STUN 
报 文 类 型 中 定义 。 各 种 STUN 参数 ， 包 括 方法 和 属性 数量 ， 均 由 IANA[ISP] 维护 。 属 性 有 
自己 的 类 型 ， 并 可 以 改变 长 度 。 在 一 个 卫 数据 包 中 ， 基 本 的 STUN 头 通常 紧 挨 着 UDP 传输 
头 ， 如 图 7-8 所 示 。 


0 15 16 31 


00] STUN 报 文 类 型 (14 位 ) 报 文 长 度 (16 位 ) 
魔术 cookie ( 32 位 , 值 为 0x2112A442 ) 



















基本 STUN 
头 部 
(20 字 节 ) 事务 ID ge 






(96 {iz ) 


属性 (如果 有 的 话 ) 


000000000001; E : 
000000000011: 分 配 
000000000100: 刷新 STUN 方法 


| 





y as 00001 $ 
方法 (12 位) eo E (参见 [RFC5766] ) 


ge gt, pias 
多 


a 


eTM oa 响应 成 功 
L: 响应 出 错 


图 7-8 STUN 报 文 总 是 以 2 个 0 比特 位 开始 ， 并 且 封 装 在 UDP 中 ， 当 然 TCP 也 是 允许 的 。 报 文 类 型 
字段 同时 给 出 了 方法 (Ain, WE) 和 类 型 (请求 ， 响 应 ， 错 误 ， 成 功 )。 事 务 ID 是 一 个 长 为 
96 位 的 数字 ， 用 于 匹配 请 求 和 响应 ， 或 者 在 标志 情况 中 用 于 调试 。 每 个 STUN 报 文 能 够 包含 0 
个 或 者 多 个 属性 ， 这 取决 于 STUN 的 特定 用 法 


000000001000: 创建 权限 
000000001001: 信道 绑 定 


报 文 类 型 编码 





基本 的 STUN 头 的 长 度 是 20 字 节 ( 见 图 7-8 )， 报 文 长 度 (Message Length) 字段 提供 了 
一 个 最 大 为 2-1 字 节 的 完整 的 STUN 报 文 长 度 ( 报 文 长 度 字 段 不 包括 20 字 节 的 报头 长 度 )， 
由 于 报 文 总 是 用 多 个 4 字 节 来 填充 的 ， 所 以 长 度 字 段 的 低 2 位 总 是 为 0。 通过 UDP/IP 发 出 
的 STUN 报 文 所 形成 全 数据 包 ， 若 预先 知道 路 径 MTU 的 大 小 ， 为 避免 分 片 ， 其 大 小 应 小 于 
MTU ( 见 第 10 章 )。 如 果 不 知道 MTU， 整 个 数据 报 的 长 度 (4048 IP A UDP 头 和 任何 选项 ) 
应 小 于 576 个 字 节 ( IPv4 ) 或 1280 字 节 (IPv6 )。STUN 没有 规定 如 何 处 理 回 复 的 报 文 超过 
相反 方向 路 径 MTU 的 情况 ， 所 以 服务 器 应 当 安排 使 用 大 小 适当 的 报 文 。 


eka gs 


通过 UDP/IP 传递 的 STUN 报 文 是 不 可 靠 的 ， 因 此 STUN 应 用 程序 都 需要 自己 来 实现 可 
靠 性 。 这 是 通过 重 发 认为 丢失 的 报 文 来 实现 的 。 重 传 间隔 是 通过 估计 向 对 方 发 送 和 接受 一 个 
报 文 的 时 间 来 计算 的 ， 称 为 往返 时 间 (round-trip time，RTT)。 在 我 们 讨论 TCP 时 ( 见 第 14 
章 ),RTT 的 计算 及 重 传 计时 器 的 设置 是 一 个 需要 重点 考虑 的 地 方 。STUN 使 用 了 类 似 的 做 法 ， 
但 在 标准 的 TCP 上 稍 做 了 修改 。 更 多 细节 请 参考 [RFC5389]。 通 过 TCP/IP 或 带 有 TLS/IP 的 
TCP 来 传输 的 STUN 报 文 的 可 靠 性 问题 由 TCP 来 处 理 。 基 于 TCP 的 连接 可 以 支持 多 个 待定 
的 STUN 事务 。 

STUN 的 属性 被 编码 在 一 个 TLV 布局 中 ， 这 也 为 许多 其 他 互联 网 协议 所 采用 。TLV 的 
类 型 和 长 度 字 段 均 是 16 比特 ， 值 部 分 是 长 度 可 变 的 〈 最 多 到 64KB ， 如 果 支 持 的 话 )， 紧 随 其 
后 的 是 多 个 4 字 节 的 填充 (填充 的 比特 可 能 为 任意 值 )。 在 同一 个 STUN 报 文中 ， 属 性 类 型 
可 能 会 出 现 多 次 ， 尽 管 只 有 第 一 个 对 接受 者 来 说 才 是 必需 的 。 属 性 值 低 于 0x8000 的 是 必须 
包含 (comprehension-required) 的 属性 ， 而 其 他 的 则 称 为 可 选 包 含 ( comprehension-optional ) 
的 属性 。 假 如 一 个 代理 收 到 一 个 拥有 必须 包含 属性 的 报 文 但 却 并 不 知道 该 如 何 处 理 ， 就 生成 
一 个 错误 。 到 目前 为 止 ， 多 数 定义 的 属性 是 必须 包含 的 [ISP]。 

[RFC5389] 定义 了 一 个 称 之 为 绑 定 (binding) 的 STUN 方法 ， 能 够 在 请 求 / 响应 或 者 标 
志 事务 中 用 于 地 址 确定 和 保持 NAT 绑 定 。 它 同时 定义 了 11 个 属性 ， 如 表 7-2 所 示 。 


表 7-2 定义 在 [RFC5389] 中 的 STUN， 有 时 也 称 为 STUN2， 它 取代 了 经 典 STUN. 
这 11 个 属性 可 能 被 兼容 于 STUN2 的 客户 机 和 服务 器 所 使 用 


名 # 目的 /用 途 
Ea atte pe A 
CS aa 用 来 检验 报 文 的 完整 性 (达到 513 
a SR 在 STUN 报 文中 的 报 文 证 书 代码 值 (参见 第 18 章 和 
[RFC5389]) 
包括 3 位 差错 类 型 、8 位 差错 代码 值 和 长 度 可 变 的 关 
— 4 mH! d 每 个 
SEATS | voto | 起 使 用 来 表示 未 知 属性 (每 个 属性 16 
REALM 指示 长 期 信任 的 证 书 “ 范 围 ”名 称 
te eins 为 了 阻止 重 放 攻击 ， 在 请 求 和 应 答 中 选择 性 地 携带 的 
FERM 
XOR-MAPPED-ADDRESS MAPPED-ADDRESS 的 异 或 (XOR) 版 本 
SOFTWARE 发 送 报 文 的 软件 的 文本 描述 (例如 ， 制 造 商 和 版 本 号 ) 
提供 了 男 一 个 亿 地 址 供 客户 机 使 用 ， 与 MAPPED- 
ALTERNATE-SERVER ADDRESS 一 起 被 编码 
报 文 的 CRC-32 和 0x5354554E 进行 异 或 (XOR)， 如 
edi 果 使 用 的 话 必须 是 最 后 的 属性 (可 选 的 ) 


参考 图 7-5， 地 址 信息 为 Xx 的 客户 机 总 是 有 兴趣 确定 名 ':x1'"， 即 反 向 传输 地 址 
( reflexive transport address) 或 者 映射 地 址 ( mapped address)。 位 于 Y1:y1 的 STUN 服务 器 将 
反 向 传输 地 址 包含 在 一 个 STUN 报 文 的 MAPPED-ADDRESS 属性 中 ， 并 将 其 回复 给 客户 机 。 
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MAPPED-ADDRESS 属性 包含 一 个 8 位 的 地 址 族 ( Address Family) 字段 ， 一 个 16 位 的 端口 
号 (Port Number) 字段 ， 以 及 一 个 32 位 或 128 位 的 地 址 (Address) 字段 ， 这 取决 于 地 址 族 
字段 (IPv4 为 0x01，IPv6 为 0x02 ) 指定 是 IPv4 还 是 IPv6。 之 所 以 包含 这 个 属性 是 为 了 与 
经 典 的 STUN 保持 向 后 兼容 。 更 重要 的 属性 是 XOR-MAPPED-ADDRESS 属性 ， 其 中 包含 与 
MAPPED-ADDRESS 完全 相同 的 属性 值 ， 但 需要 与 魔术 cookie {A (对 于 IPv4 ) 或 事务 ID 与 
魔术 的 cookie 串联 值 (对 于 IPv6 ) 异 或 。 以 这 种 方式 使 用 异 或 值 的 原因 是 为 了 检测 并 绕 过 通 
FA ALG, 防止 它们 查看 和 改写 通过 的 任何 IP 地 址 。 这 种 ALG 是 很 脆弱 的 ， 因 为 它们 可 能 
改写 像 STUN 这 样 的 协议 所 必需 的 信息 。 经 验 表 明 ， 在 数据 包 人 负载 中 异 或 PP 地址 足以 绕 过 
322| ALG. 

一 个 STUN 客户 机 ， 包 括 多 数 的 VoIP 设备 和 软件 电话 应 用 如 pjsua[PJSUA]， 初 始 时 
均 需 要 配置 一 个 或 者 多 个 STUN 服务 器 的 IP 地 址 或 者 名 称 。 之 所 以 希望 使 用 STUN 服务 
器 是 因为 当 该 应 用 程序 最 终 与 对 方 对 话 时 它 能 看 到 相同 的 卫 地 址 ， 尽 管 要 确定 可 能 有 点 困 
难 。 通 常 使 用 布局 在 互联 网 中 的 STUN 服务 器 (19) 40, stun.ekiga.net, stun.xten.com, numb. 
viagenie.ca) 便 足 够 了 。 一 些 服务 器 能 够 通过 DNS 服务 (SRV) 记录 来 发 现 (参见 第 11 章 )。 
图 7-9 所 示 的 就 是 一 个 STUN 绑 定 请 求 的 例子 。 


stun-binding.tr - Wireshark 








Response In: 2 
W Message Type: 0x0001 (Binding Request) 
Message Length: 16 
Message Cookie: 2112a442 
Message Transaction ID: cOQ162f613d45a3acifdo10d 
B Attributes 
SOFTWARE 
w Attribute Type: SOFTWARE (0x8022) 
Loro ssas miss poea = Attribute Type Comprehension: Ox0001 
[optional (C1)] 
0 











Ou sass = Attribute Type Assignment: 0x0000 
[IETF Review (0)] 
Attribute Length: 12 
Software: pjnath-1.6 






7-9 一 个 STUN 绑 定 请 求 。 该 请 求 包含 一 个 96 位 的 事务 ID 和 一 个 用 于 识别 发 起 请 求 的 客户 机 的 
SOFTWARE 属性 。 属 性 包含 了 10 个 字符 , 但 是 其 值 向 上 舍 入 为 4 的 倍数 ,给 出 的 属性 值 是 
12。 报 文 长 度 16 包含 了 用 于 包含 属性 类 型 和 长 度 的 4 个 字 节 (并 未 包含 STUN KM) 


7-9 所 示 的 STUN 绑 定 请 求 例子 由 客户 机 先 初 始 化 。 事 务 ID 是 随机 选择 的 ， 其 请 

求 将 被 发 送 到 numb.viagenie.ca ( IPv4 地 址 为 216.146.46.55 和 216.146.46.59 )， 这 既是 一 台 

STUN 服务 器 ， 也 是 一 台 TURN 服务 器 (参见 7.4.4 节 )。 请 求 中 包含 了 用 于 识别 客户 应 用 的 

SOFTWARE 属性 。 在 这 种 情况 下 ， 请 求 由 pinath-1.6 初始 化 。 这 是 包含 在 pjsua 中 的 “PJSIP 

NAT 助手 ”应 用 。 信 息 长 度 包含 用 于 属性 类 型 和 长 度 的 4 字 节 ， 加 上 用 于 保持 属性 的 12 个 

字 节 。pjnath-1.6 的 长 度 只 有 10 字 节 ， 但 是 属性 长 度 总 是 向 上 取 整 为 接近 4 字 节 的 倍数 。 在 
穿越 过 一 个 NAT 之 后 ， 所 得 的 应 答 如 图 7-10 所 示 。 
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stun-binding,tr - Wireshark 


Request In: 1 

[Time: 0.069934000 seconds] 
@ Message Type: 0x0101 (Binding success Response) 

Message Length: 48 

Message Cookie: 2112a442 

Message Transaction ID: c00162f613d45a3ac1fd0100 
f Attributes 

i MAPPED-ADDRESS: 71.134.182.214:33294 

=) Ss Type: MAPPED-ADDRESS (0x0001) 
sees = Attribute Type Comprehension: 0x0000 


ae 009] 
sD; 


++. = Attribute Type Assignment: 0x0000 
[IETF keue Co)] 
attribute Length: 8 
Reserved: 1 
Protocol Family: IPv4 (0x01) 
Port: 33294 
IP: 71.134.182.214 (71.134.182.214) 
f XOR-MAPPED-ADDRESS: 71.134.182.214:33294 
@ Attribute Type: XOR-MAPPED-ADDRESS (0x0020) 
0. “= Attribute Type Comprehension: 0x0000 
(Required (o)] “ 
. = Attribute Type Assignment: 0x0000 
ay Review (0)] 
Attribute Length: 8 
Reserved: 1 
Protocol Family: IPv4 (0x01) 
Port (XOR-d): a31c 
[Port: 33294] 
IP (xOR-d): 66941294 
(IP: 712.134.182.214 (71.134.182.214)] 
f RESPONSE-ORIGIN: 216.146.46, 55:3478 
@ ae Type: RESPONSE-ORIGIN (0x802b) 
= Attribute Type Comprehension: 0x0001 
topcoat C01)] 
+» = Attribute Type Assignment: 0x0000 
ners Review C0)] 
Attribute Length: 8 
Reserved: 1 
Protocol Family: IPv4 (0x01) 
Port: 3478 
IP: 216.146.46.55 (216.146.46.55) 
S OTHER-ADDRESS: 216,146.46. 59:3479 
@ Attribute Type: OTHER-ADDRESS (0x802c) 
1. +++. = Attribute Type Comprehension: 0x0001 
(opt tonal a) 
«+e. = Attribute Type Assignment: 0x0000 
ee Review. (0)] 
attribute Length: 8 
Reserved: 1 
Protocol Family: IPv4 (0x01) 
Port: 3479 
IP: 216.146.46.59 (216.146.46.59) 





图 7-10 包含 4 个 属性 的 STUN 绑 定 回复 。MAPPED-ADDRESS 和 XOR-MAPPED-ADDRESS 属性 包 
含 服务 器 反 向 寻 址 信息 。 其 他 的 属性 用 于 实验 性 质 的 NAT 行为 发 现 机 制 [RFC5780] 


图 7-10 所 示 的 绑 定 回 复 以 编码 为 属性 集合 的 方式 为 客户 机 提供 了 有 用 的 信息 。 
MAPPED-ADDRESS 和 XOR-MAPPED-ADDRESS 属性 表明 ，STUN 服务 器 确定 了 服务 
器 反 向 地 址 71.134.182.214:33294。RESPONSE-ORGIN 和 OTHER-ADDRESS 属性 被 实验 
设施 用 于 发 现 NAT 行 为 [RFC5780]。 第 一 个 属性 给 出 了 用 来 发 送 STUN 报 文 的 通信 终端 
( 216.146.46.55:3478， 与 发 送 IPv4 地 址 和 UDP 端口 号 相 匹配 )。 第 二 个 属性 表示 假如 客户 机 
请 求 “ 更 改 地 址 ”或 “改变 端口 ”的 行为 ， 哪 个 IPv4 源 地 址 和 端口 号 ( 216.146.45.59:3479 ) 
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将 被 使 用 。 后 者 的 属性 相当 于 现在 已 经 过 时 的 经 典 STUN 中 的 CHANGED-ADDRESS 属性 。 
如 果 一 个 请 求 要 求 变更 地 址 或 端口 ， 如 果 可 能 ， 回 复 给 客户 机 的 协作 STUN 服务 器 应 该 尝试 
使 用 一 个 不 同 的 地 址 。 

STUN 可 用 于 执行 地 址 确定 之 外 的 其 他 一 些 称 为 机 制 (mechanisms) 的 功能 ,包括 DNS 
发 现 、 重 定向 到 备用 服务 器 的 方法 和 报 文 完整 性 交换 。 机 制 是 在 一 个 特定 的 STUN 用 法 的 上 
下 文中 选择 的 ， 所 以 一 般 被 认为 是 可 选 的 STUN 功能 。 一 个 更 重要 的 机 制 是 提供 身份 和 报 文 
完整 性 验证 。 它 有 两 种 形式 : 短期 信任 机 制 (short-term credential mechanism) 和 长 期 信任 机 
制 (long-term credential mechanism) 。 

短期 信任 持续 一 个 会 话 ; 特定 时 间 由 STUN 用 法 来 定义 。 长 期 信任 支持 多 个 会 话 ; 它们 
对 应 一 个 登录 ID 或 账户 。 短 期 信任 通常 用 于 特定 的 信息 交换 ， 长 期 信任 在 分 配 某 些 特定 资 
源 时 才 使 用 (例如 和 TURN 一 起 ， 见 7.4.4 节 )。 在 能 够 被 截获 的 地 方 ， 从 来 不 用 明文 来 发 送 
密码 。 

短期 信任 机 制 使 用 USERNAME 和 MESSAGE-INTEGRITY 这 两 个 属性 。 两 者 在 任何 请 
求 中 都 是 必需 的 。USERNAME 属性 暗示 需要 哪 种 赁 证， 允许 信息 的 发 送 方 使 用 合适 的 共享 
密码 来 形成 一 个 报 文 的 完整 性 校 验 〈 基 于 报 文 内 容 计算 一 个 MAC 值 ， 见 第 18 章 )。 使 用 短 
期 信任 时 ， 假 定 某 种 形式 的 凭证 信息 〈 例 如 ， 用 户 名 和 密码 ) 在 前 期 已 经 被 交换 过 。 用 于 形 
成 STUN 信息 完整 性 校 验 的 凭证 被 编码 在 MESSAGE-INTEGRITY 属性 中 。 能 够 形成 一 个 有 
效 的 MESSAGE-INTEGRIT 属性 值 ， 意 味 着 发 送 方 当 前 持 有 的 凭证 是 正确 和 最 新 的 。 

长 期 信任 机 制 通过 一 种 称 为 摘要 挑战 (digest challenge) 的 方法 来 保证 凭证 是 最 新 的 。 
使 用 这 个 机 制 ， 客 户 端 在 初始 化 请 求 时 不 需要 提供 任何 认证 信息 。 服 务 器 会 先 拒绝 请 求 ， 但 
在 响应 中 会 包含 一 个 REALM 属性 。 这 可 以 被 客户 端 用 来 确定 需要 提供 何 种 凭证 才能 通过 验 
证 ， 当 然 客户 端 可 能 有 各 种 服务 的 凭据 (例如 ， 多 个 VoIP 账户 )。 和 REALM 一 起 ， 服 务 器 
会 提供 一 个 永 不 重用 的 NONCE 值 ， 客 户 端 能 够 用 它 来 形成 后 续 的 请 求 。 这 种 机 制 还 采用 了 
MESSAGE-INTEGRITY 属性 ,但 其 完整 性 功能 是 通过 包含 NONCE 值 来 计算 的 。 因 此 ,从 
听 了 之 前 长 期 信任 交换 的 窃贼 很 难 回复 一 个 有 效 的 请 求 (因为 NONCE 值 是 不 同 的 )。 如 何在 
凭证 中 使 用 NONCE 及 相关 问题 在 第 18 章 有 详细 讨论 。 长 期 信任 机 制 无 法 用 来 保护 STUN 
标志 ， 因 为 这 些 事务 不 是 以 请 求 / 响应 对 来 操作 的 。 


7.4.4 利用 NAT 中 继 的 穿越 


利用 NAT 中 继 的 穿越 ( Traversal Using Relays around NAT, TURN) [RFC5766] 为 两 个 
或 多 个 系统 提供 了 一 种 通信 方式 ， 即 使 它们 均 位 于 并 未 协作 的 NAT 后 。 作 为 支持 在 这 种 情 
况 下 通信 的 最 后 手段 ， 它 需要 一 个 中 继 服 务 器 在 无 法 通信 的 系统 之 间 传 递 数 据 。 使 用 STUN 
和 一 些 TURN 特定 报 文 的 扩展 ， 即 使 大 多 数 其 他 方法 都 失败 了 它 也 能 照样 支持 通信 ， 只 要 每 
个 客户 端 均 能 连接 到 不 在 NAT 后 的 公共 服务 器 。 如 果 所 有 的 NAT 4945 BEHAVE 标准 兼容 ， 
TURN 就 没有 必要 存在 了 。 直 接 通信 的 方法 ( 即 不 使 用 TURN) 总 是 优 于 采用 TURN 服务 器 
的 方法 。 

根据 图 7-11， 通 常 位 于 NAT Jaf) TURN 客户 机 会 访问 位 于 公共 互联 网 上 的 TURN 服 
Bi, Ha CER BERN HAS ( 称 为 对 等 (peer))。 通 过 使 用 一 种 特殊 的 DNS 
NAPTR 记录 ( 见 第 11 章 和 [RFC5928])， 或 通过 手动 配置 ， 便 可 以 找到 用 于 通信 的 服务 器 的 
地 址 和 相应 的 协议 。 客 户 端 从 服务 器 端 获 得 的 地 址 和 端口 信息 ， 称 为 中 继 传 输 地 址 (relayed 
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transport address)， 就 是 TURN 服务 器 用 于 和 其 他 对 等 客户 机 通信 的 地 址 和 端口 号 。 客 户 端 
也 获得 了 它 自 己 的 服务 器 反 向 传输 地 址 。 对 等 客户 机 也 得 到 了 代表 它们 外 部 地 址 的 服务 器 反 
向 传输 地 址 。 这 些 地 址 是 客户 端 和 服务 器 用 来 连接 客户 机 及 其 对 等 所 必需 的 。 交 换 寻 址 信息 
的 方法 并 没有 在 TURN 中 定义 。 相 反 ， 为 了 能 够 更 加 有 效 地 使 用 TURN 服务 器 ， 这 些 信息 
必须 使 用 其 他 一 些 机 制 来 完成 交换 (例如 ，7.4.5 节 的 ICE)。 


中 继 的 传输 层 地 址 
192.0.2.201 










对 等 A 服务 器 反 向 
传输 层 地 址 
对 等 A 主机 
192.0.2.150 
ee 传输 层 地 址 
服务 器 的 传输 层 地 址 192.168.100.1 


192.0.2.15 


客户 端的 主机 
传输 层 地 址 ~ 、 
192.168.0.1 


对 等 A 

对 等 B 主机 

p ehm 
10.0.0.100 





Ga] 客户 端的 服务 器 
A |】 反 向 传输 层 地 址 
192.0.2.201 


对 等 B 服务 器 
反问 传输 层 地 址 


192.0.2.210 rs 
图 7-11 根据 [RFC5766], 一 个 TURN 服务 器 通过 中 继 来 帮助 位 于 “ 坏 ”( bad) NAT 之 后 的 客户 机 之 
间 通 信 。 客 户 端 和 服务 器 之 间 的 流量 可 采用 TCP. UDP 或 使 用 了 TLS 的 TCP。 服 务 器 和 一 个 
或 多 个 对 等 客户 机 之 间 的 流量 使 用 UDP。 中 继 是 通信 的 最 后 手段 ， 直 接 的 方法 才 是 首选 


客户 端 使 用 TURN 命令 来 创建 和 维护 服务 器 上 的 分 配 (allocation)。 一 个 分 配 类 似 于 
一 个 多 路 NAT 绑 定 ， 包 括 (唯一 ) 中 继 传 输 地 址 ， 每 个 对 等 客户 机 需要 使 用 它 到 达 本 机 。 
通过 UDP/IPv4 使 用 传统 的 TURN 报 文 来 发 送 服务 器 /对 等 数据 。 通 过 增强 也 能 支持 TCP 
[RFC6062] 和 IPv6 (IPv4 和 IPv6 之 间 的 中 继 ) [RFC6156]。 封 装 的 客户 / 服务 器 数据 内 包括 
发 送信 息 或 者 接受 相关 数据 的 相应 的 对 等 客户 机 的 信息 。 客 户 / 服务 器 连接 已 被 指定 为 使 用 
UDP/IPv4、TCP/IPv4 和 采用 TLS 的 TCP/IPv4。 建 立 一 个 分 配 要 求 验证 客户 端的 身份 ， 通 常 
使 用 STUN 长 期 信任 机 制 。 

TURN 支持 两 种 客户 端 和 对 等 之 间 拷 贝 数据 的 方法 。 第 一 种 使 用 STUN 方法 来 编码 数 
据 ， 称 为 发 送 (Send) 和 数据 (Data)， 定 义 在 [RFC5766] P, XÆ STUN 指示 器 (indicator), 
因此 无 须 认 证 。 其 他 的 方法 采用 特定 于 TURN 的 概念 ， 称 为 隧道 (channel)。 隧 道 是 客户 端 
和 对 等 之 间 的 通信 路 径 ， 相 对 于 发 送 和 数据 方法 负载 较 轻 。 通 过 隧道 传递 的 报 文 使 用 一 个 较 
小 的 、4 个 字 节 的 报头 ， 与 TURN 使 用 的 较 大 的 STUN 格式 报 文 是 不 兼容 的 。 一 个 分 配 最 多 
可 以 拥有 16K 个 隧道 。 发 展 隧道 方法 ， 有 助 于 减 小 一 些 数据 包 比 较 小 的 应 用 的 延迟 和 开销 ， 
如 VoIP 等 。 

在 操作 中 ， 客 户 端 使 用 一 个 TURN 定义 的 STUN 分 配 (Allocate) 方法 来 发 出 一 个 获取 
分 配 的 请 求 。 如 果 成 功 ， 服 务 器 响应 一 个 成 功 指示 器 和 已 经 分 配 的 中 继 传 输 地 址 。 如 果 客 户 
未 能 提供 足够 的 验证 信息 ， 服 务 器 可 能 会 拒绝 请 求 。 现 在 ， 客 户 端 必须 发 送 更 新 的 报 文 以 保 
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持 分 配 活 跃 。 如 果 客 户 机 10 分 钟 内 不 发 送信 息 ， 那 么 分 配 就 到 期 ， 除 非 客户 机 在 分 配 请 求 
中 包含 了 一 个 用 于 指定 不 同 生命 周期 值 的 STUN LIFETIME 属性 。 通 过 请 求 一 个 生命 周期 为 
0 的 分 配 ， 就 能 将 其 删除 。 分 配 到 期 时 ， 与 其 相关 的 所 有 隧道 便 也 到 期 了 。 

分 配 通常 使 用 “5 元 组 ”表示 。 在 客户 端 ，5 元 组 包括 客户 端的 主机 地 址 和 端口 号 、 服 
务 器 传输 地 址 和 端口 号 以 及 用 于 与 服务 器 通信 的 传输 协议 。 除 了 客户 端的 主机 传输 地 址 和 端 
口 被 替换 为 服务 器 的 反 向 地 址 和 端口 之 外 ， 服 务 器 端 使 用 了 相同 的 五 元 组 。 一 个 分 配 可 能 有 
零 个 或 多 个 相关 联 的 权限 (permission)， 以 限制 允许 通过 TURN 服务 器 的 连接 模式 。 每 个 权 
限 包括 一 个 IP 地 址 的 限制 ， 只 有 当 源 地 址 匹配 的 数据 包 到 达 TURN 服务 器 ， 其 数据 有 效 载 
荷 才 会 被 转发 到 相应 的 客户 端 。 如 果 不 能 在 5 分 钟 内 刷新 ， 权 限 将 被 删除 。 

TURN 通过 6 种 方法 、9 个 属性 以 及 6 个 错误 响应 代码 增强 STUN。 这 些 大 致 可 以 分 为 支 
持 建立 和 维护 分 配 、 认 证 以 及 操作 隧道 。6 种 方法 和 它们 的 方法 号 如 下 : 分 配 (Allocate) (3), 
刷新 (Refresh) (4 )， 发 送 (Send) (6 )， 数 据 (Data) (7 )， 创 建 权 限 ( CreatePermission) (8 ), 
隧道 绑 定 (ChannelBind)( 9 )。 前 两 种 方法 用 于 建立 并 保持 分 配 存活 。Send 和 Data 使 用 STUN 
报 文 封装 从 客户 端 发 送 到 服务 器 的 数据 ， 反 之 亦 然 。GreatePermission 用 于 创建 或 刷新 一 个 权 
限 ，ChannelBind 通过 一 个 16 位 的 隧道 号 与 一 个 特定 的 对 等 客户 端 相 关联 。 错 误 报 文 表明 与 
TURN 功能 相关 的 问题 ， 如 认证 失败 或 资源 耗 尽 (例如 ， 隧 道 数 )。 表 7-3 给 出 了 由 TURN E 
义 的 9 个 STUN 属性 名 称 、 值 以 及 目的 。 


表 7-3 由 TURN 定义 的 STUN 属性 


名 称 目的 /用 处 
CHANNEL-NUMBER 表示 和 数据 关联 的 信道 
LIFETIME 请 求 分 配 超时 〈 秒 ) 
XOR-PEER-ADDRESS 一 个 对 等 的 地 址 和 端口 号 ， 采 用 异 或 (XOR) 编码 
DATA 为 一 个 发 送 或 者 数据 指示 保存 数据 
XOR-RELAYED-ADDRESS 为 一 个 客户 机 分 配 的 服务 器 地 址 和 端口 
中 继 的 传输 层 地 址 信息 使 用 一 个 偶数 端口 的 请 求 ， 选 
sie 择 性 地 按 顺 序 请 求 分 配 下 一 个 端口 
一 个 客户 机 用 来 请 求 采用 一 个 特定 的 传输 层 来 形成 传 
REQUESTED-TRANSPORT 0x0019 输 层 地 址 ， 值 来 自 于 IPv4 协议 或 者 IPv6 下 一 跳 头 部 字 
段 值 
ae Eat IPv4 头 部 中 的 “不 分 
服务 器 保存 的 一 个 中 继 传输 层 地 址 的 唯一 标志 ， 这 个 
RESERVATION-TOKEN 值 作为 一 个 引用 提供 给 客户 端 


TURN 请 求 采用 了 STUN 报 文 的 形式 ， 其 中 报 文 类 型 是 一 个 分 配 请 求 。 图 7-12 给 出 了 
一 个 例子 。 根 据 STUN 的 长 期 信任 机 制 ， 图 7-12 所 示 的 初始 分 配 请 求 没有 包括 认证 信息 ， 
因此 会 被 服务 器 拒绝 。 如 图 7-13 所 示 的 一 个 分 配 错误 响应 表示 服务 器 拒绝 了 请 求 。 

图 7-13 中 的 错误 信息 提供 了 REALM 属性 (viagenie. ca) 和 客户 端 需 要 形成 它 下 一 个 
请 求 的 NONCE 值 。 报 文 还 包括 了 MESSAGE-INTEGRITY 属性 ， 所 以 客户 端 可 以 检查 该 
报 文 没有 被 修改 ,请求 中 属性 REALM 和 NONCE 是 正确 的 。 随 后 的 请 求 中 包含 的 属性 有 
USERNAME, NONCE 和 MESSAGE-INTEGRITY。 参 见 图 7-14; 
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stun-turn.tr - Wireshark 


@ Message Type: 0x0003 (Allocate Request) 
Message Length: 24 
Message Cookie: 2112a442 
Message Transaction ID: 85cd0000f5e769158fbb307a 
B Attributes 
E REQUESTED-TRANSPORT: UDP 
@ Attribute Type: REQUESTED-TRANSPORT (0x0019) 
attribute Length: 4 
Transport: UDP (0x11) 
Reserved: 3 
& SOFTWARE 
@ Attribute Type: SOFTWARE (0x8022) 
Attribute Length: 12 
software: pjnath-1.6 








图 7-12 TURN 分 配 请 求 是 一 个 使 用 报 文 类 型 0x0003 的 STUN 报 文 。 这 一 请 求 还 包括 REQUESTED- 
TRANSPORT 和 SOFTWARE 属性 。 但 是 并 未 包含 认证 信息 。 根 据 STUN 的 长 期 信任 ， 这 个 请 
求 将 失败 


stun-turn.tr - Wireshark 


BUH BAXSE Ve soTe 


ui i 


@ Frame 2: 166 i on wire (1328 bits, 166 == 二 (1328 bits) : 
@ Ethernet II, Src: 00:80:48:51:f5:b8 (00:80:48;52:F5:b8), DST: 003173f25e 6d 05 1 
B Internet Protocol, Src: 216.146.46.55 (216.146.46.55), Ost: 10. 59.1.37 (10 59.1137) š 
User Datagram Protocol, Sre Port: 3479 (3479), Ost Port: 65482 SB : 
a Session Traversal utilities for NAT 
Request In: 1] 
[Time: 0.071807000 seconds] 
Æ Message Type: Ox0113 (allocate Error Response) 
Message Length: 104 
Message Cookie: 2112a442 
Message Transaction ID: 85cd0000f5e769158fbb3074 
S Attributes 
S ERROR-CODE 401 (Unauthorized): unauthorized 
@ Attribute Type: ERROR-CODE (0x0009) 
Attribute Length: 16 
Reserved: 2 
.100 = Error Class: 4 
Error code: 1 
Error Reason Phrase: Unauthorized 
5 REALM: viagenie.ca 
® Attribute Type: REALM (Ox0014) 
Attribute Length: 11 
Realm: viagenie.ca 
Padding: 1 
E NONCE: TwQMTAAAAAA=RXxIPkBMrwMKgYyteh62zUX1WRIUS= 
@ Attribute Type: NONCE (0x0015) 
attribute Length: 40 
Nonce: TwQMTAAAAAA=RXIPk BMP WMKgYyt eh62Ux 1 wRIUS= 
& MESSAGE-INTEGRITY 
@ Attribute Type: MESSAGE-INTEGRITY (0x0008) 
attribute Length: 20 
HMAC-SHAL: Oe06d5bbaac5154119ad5a000e36399abe7685ea 











K| 7-13 TURN 分配 错误 响应 包含 属性 值 为 401 的 ERROR-CODE 属性 (未 授权 )。 i ANSE Se He 
保护 的 ， 并 包含 了 客户 端 为 形成 下 一 个 认证 分 配 请 求 所 必需 的 REALM 和 NONCE 属性 
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如 图 7-14 所 示 ， 在 收 到 包含 长 期 信任 的 请 求 之 后 ， 服 务 器 计算 自己 版 本 的 报 文 完 整 性 
fi, $f MESSAGE-INTEGRITY 属性 值 进行 比较 。 如 果 它 们 匹配 ，TURN 服务 器 便 有 足 
够 的 信息 确定 客户 端 持 有 正确 的 密码 。 然 后 ， 它 允许 分 配 并 指示 将 结果 返回 给 客户 端 ( 见 
图 7-15 )。 

如 图 7-15 所 示 ， 分 配 请 求 是 成 功 的 ， 中 继 传 输 地 址 是 216.146.46.55:49261 (注意 ， 
Wireshark 执行 XOR 操作 来 显示 解码 后 的 地 址 )。 此 时 ， 客 户 端 可 以 继续 使 用 TURN 服务 器 
来 中 继 和 对 等 客户 端 之 间 的 通信 。 一 旦 这 个 完成 后 ， 分 配 可 以 被 删除 。 大 概 4s 后 ， 图 7-15 
所 示 的 包 5 和 6 表明 客户 端 请 求 删除 分 配 。 这 个 请 求 作 为 一 个 刷新 ， 其 生命 周期 设 为 0。 服 
务 器 啊 应 一 个 表示 成 功 的 指示 器 ， 并 清除 分 配 。 请 注意 ，BANDWIDTH 属性 已 包含 在 分 配 
和 刷新 成 功 指示 器 中 。 此 属性 定义 在 [RFC5766] 初稿 中 ， 但 最 终 被 弃 用 ， 本 来 打算 用 于 保存 
在 分 配 中 允许 的 峰值 带宽 ， 单 位 是 KB/s。 在 未 来 可 能 会 重新 定义 该 属性 。 


stun-turn,tr - Wireshe 





Duplicated original message in: 
@ Message Type: 0x0003 (Allocate Request) 
Message Length: 132 
Message Cookie: 21124442 
Message Transaction ID: 85cd0000133bee5291bb307a 
& Attributes 
& REQUESTED-TRANSPORT: UDP 
@ Attribute Type: REQUESTED-TRANSPORT (0x0019) 
Attribute Length: 4 
Transport: UDP (0x11) 
Reserved: 3 
5 SOFTWARE 
@ Attribute Type: SOFTWARE (0x8022) 
Attribute Length: 12 
Software: pjnath-1.6 
USERNAME: kfall.sip@gmail.com 
@ Attribute Type: USERNAME (Ox0006) 
Attribute Length: 19 
username: kfall.sip@gmail. com 
Padding: 1 
G REALM: viagenje.ca 
@ attribute Type: REALM (0x0014) 
Attribute Length: 11 
Realm: viagenie.ca 
Padding: 1 
f@ NONCE: TWQMTAAAAAA=RXIPK BMrWMKgyyt eh62Ux] wRIUB= 
æ Attribute Type: NONCE (Ox0015) 


Attribute Length: 40 
Nonce: TWOMTAAAAAA=RXIPKBMrWMKgYyt eh62UxTwRIUB= 
E MESSAGE-INTEGRITY 
@ attribute Type: MESSAGE-INTEGRITY (0x0008) 
Attribute Length: 
HMAC-SHAL: 1e38ccb57f5dcad4b0574f90bf7b9edaaaba7f1d 





图 7-14 第 二 个 TURN 4} fi 2k t2 4% T USERNAME, REALM, NONCE #1 MESSAGE-INTEGRITY 
属性 。 使 用 这 些 服务 器 能 够 验证 报 文 的 完整 性 及 客户 端的 身份 。 如 果 成 功 ， 服 务 器 将 验证 请 
求 并 进行 分 配 
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pli or inal e Q 
æ Message Type: 0x0103 PESE Success Response) 


Message Length: 64 
Message Cookie: 21124442 
Message Transaction ID: 85cd0000133beei291bb307a 
a Attributes 
 MOR-RELAYED-ADDRESS: 216.146,46,55:49261 
f Attribute Type: XOR-RELAYED-ADDRESS (0x0016) 
Attribute Length: 8 
Reserved: 1 
Protocol Family: IPv4 (0x01) 
Port Cxor-d): e17f 
(Port: 49261] 
IP (xoR-d): f9808a75 
[IP: 216.146.46.55 (216.146.46,55)] 
@ LIFETIME 600000 
Œ BANDWIDTH -1 
国 XOR-MAPPED-ADDRESS: 71.134.182.214:33298 
国 MESSAGE-INTEGRITY 





图 7-15 一 个 TURN 分 配 成 功 响 应 。 报 文 是 受到 完整 性 保护 的 ， 包括 了 用 于 确定 由 TURN 服务 器 分 配 
的 端口 和 地 址 的 XOR-RELAYED-ADDRESS 属性 。 如 果 不 刷 新 的 话 ， 分 配 将 被 删除 


正如 前 面 提 到 的 ，TURN 存在 的 缺点 是 流量 必须 通过 TURN 服务 器 进行 中 继 ， 这 可 能 
会 导致 低 效 的 路 由 ( 即 TURN 服务 器 可 能 会 离 客户 端 和 最 优 的 对 等 客户 端 距离 较 远 )。 此 外 ， 
其 他 某 些 从 对 等 到 客户 端的 流量 内 容 并 不 会 通过 TURN 服务 器 。 这 包括 ICMP (A ( 见 第 8 
章 )、TTL ( 跳 数 限制 ) 字段 值 和 1IP DS 字段 (DS field) 值 。 此 外 ， 请求 TURN 的 客户 端 必须 
实现 STUN 长 期 信任 机 制 ， 并 有 由 TURN 服务 器 操作 员 分 配 的 登录 凭证 或 账户 。 这 有 助 于 
避免 不 加 控制 地 使 用 开放 TURN 服务 器 ， 但 也 增加 了 配置 的 复杂 度 。 


745 ”交互 连接 建立 


鉴于 NAT 的 广泛 部 署 及 各 种 为 穿越 它们 所 必须 采用 的 机 制 ， 一 种 称 为 交互 式 连接 建立 
(Interactive Connectivity Establishment, ICE) [RFC5245] 的 通用 功能 被 发 展 出 来 ， 用 于 帮助 
位 于 NAT 后 的 UDP 应 用 程序 主机 建立 连接 。ICE 是 一 套 启发 式 ， 利 用 它 应 用 程序 能 够 以 

一 个 相对 可 预见 的 方式 来 执行 UNSAF。 在 它 的 操作 中 ，ICE 使 用 了 其 他 协议 ， 如 TURN 和 
STUN。 有 一 种 方法 可 以 扩展 ICE 使 其 支持 基于 TCP 的 应 用 [IDTH。 

ICE 使 用 并 扩展 了 “请 求 /应 答 ” 协 议 ， 如 单 播 SIP 连接 建立 时 的 会 话 描述 协议 (SDP) 
[RFC3264]。 这 些 协议 会 提供 一 项 拥有 一 组 服务 参数 的 服务 ， 还 包括 一 组 选 定 的 选项 。 找 到 
ICE 客户 并 纳入 使 用 SDP/SIP 建立 通信 的 VoIP 应 用 已 经 变 得 越 来 越 普 遍 。 然 而 在 这 种 情况 
F, ICE 被 用 于 建立 媒体 流 (如 使 用 RTP[RFC3550] 或 SRTP[RFC3711] 通话 中 的 音频 或 视 
频 部 分 ) 的 NAT 穿越， 而 另 一 种 称 为 SIP 出 站 (SIP outbound) 的 机 制 [RFC5626] 用 于 处 理 
SIP 信 令 ， 如 谁 是 被 叫 方 。 尽 管 在 实际 中 ，ICE 主要 用 于 基于 SIP/SDP 的 应 用 ， 它 也 可 以 作 
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为 一 个 通用 的 NAT 穿越 机 制 用 于 其 他 应 用 程序 。 这 样 的 一 个 例子 就 是 将 ICE 定义 为 可 扩展 
的 报 文 和 现场 协议 ( Extensible Messaging and Presence Protocol, XMPP) [RFC6120] 核心 的 
一 个 扩展 ， 并 与 Jingle 一 起 使 用 [XEP-0176]。 

通常 ，ICE 用 于 创建 两 个 SDP 实体 ( 称 为 代理 (agent)) 的 通信 ， 首 先 需要 确定 一 组 
每 个 代理 都 能 够 用 来 与 其 他 代理 进行 通信 的 候选 传输 地 址 (candidate transport address), & 
HE 7-11, 这些 地 址 可 能 是 主机 传输 地 址 、 服 务 器 反 向 地 址 或 中 继 地 址 。ICE 可 同时 使 用 
STUN 和 TURN 来 确定 候选 的 传输 地 址 。 接 着 , ICE 根据 优先 分 配 算法 对 这 些 地 址 进行 排序 。 
相 比 于 那些 需要 中 继 的 地 址 ， 该 算法 为 能 够 提供 直接 连接 的 地 址 分 配 更 大 的 优先 级 。 然 后 ， 
ICE 为 对 等 代理 提供 优先 的 地 址 集合 ， 其 中 对 等 代理 也 会 有 类 似 的 行为 。 最 终 ， 两 个 代理 商 
量 好 一 套 最 好 的 可 用 地 址 ， 并 将 选择 的 结果 告知 对 方 。 使 用 一 系列 编码 为 STUN 报 文 的 检查 
(check) 可 用 于 确定 哪些 候选 的 传输 层 地 址 是 可 用 的 。ICE 通过 几 项 优化 可 以 减少 同意 选 定 
候选 地 址 的 延迟 ， 但 这 超出 了 本 文 的 讨论 范围 。 

ICE 开始 试图 发 现 所 有 可 用 的 候选 地 址 。 这 些 地 址 可 能 是 本 地 分 配 的 传输 层 地 址 (如 果 
是 多 宿主 代理 便 有 多 个 主机 )、 服 务 器 反 向 地 址 ， 或 由 TURN 确定 的 中 继 地 址 。 在 为 每 个 地 
址 分 配 一 个 优先 级 后 ， 每 个 代理 使 用 SDP 将 优先 级 列表 发 送 给 对 等 方 。 对 等 代理 执行 相同 
的 操作 ， 这 导致 每 个 代理 会 有 两 个 优先 名 单 。 然 后 每 个 代理 通过 连接 2 个 列表 形成 一 个 完全 
相同 的 优先 候选 对 ( candidate pair) 集合 。 采 用 特定 的 顺序 在 候选 对 中 执行 一 系列 的 检查 可 . 
以 确定 最 终 采 用 哪些 地 址 。 一 般 情况 下 ， 优 先 排序 更 加 倾向 于 具有 较 少 NAT 或 者 中 继 的 候 
选 对 。 一 个 由 ICE 指派 的 控制 代理 ( controlling agent) 将 确定 最 终 选择 的 候选 对 。 控 制 代 理 
根据 其 优先 顺序 指定 (nominate) 使 用 哪个 有 效 的 候选 对 。 控 制 代理 可 能 会 尝试 所 有 对 ， 并 
随后 做 出 选择 ( 称 为 常规 选择 (regular nomination ) )， 或 者 可 能 使 用 第 一 个 可 行 的 对 ( 称 为 积 
极 选择 (aggressive nomination) ) 。 通 过 一 个 用 于 指定 特定 对 的 STUN 报 文中 的 标志 来 表示 常 
规 选 择 ， 而 通过 在 每 个 请 求 中 设置 选择 标志 来 表示 积极 选择 。 

利用 被 检查 的 地 址 信息 在 两 个 代理 中 交换 STUN 绑 定 请 求 信息 ， 就 是 发 送 检查 。 检 查 是 
由 计时 器 触发 ， 或 者 受 来 自 于 对 等 代理 连接 的 调度 ( 称 为 触发 检查 (triggered check))。 通 过 
包含 地 址 信息 的 STUN 绑 定 回复 表示 响应 。 在 某 些 情况 下 这 可 能 会 揭示 一 个 新 的 用 于 代理 的 
服务 器 反 向 地 址 (例如 ， 当 STUN 或 者 TURN 服务 器 最 初 确定 候选 地 址 后 ， 代 理 之 间 又 使 用 
了 一 个 新 的 不 同 于 以 往 的 NAT)。 如 果 发 生 这 样 的 情况 ,代理 获得 了 一 个 称 为 对 等 反 向 候选 
( peer-reflexive candidate) 的 新 地 址 ， 该 地 址 将 被 ICE 添加 到 候选 地 址 中 。ICE 检查 是 通过 使 
用 基于 STUN 短期 信任 机 制 的 完整 性 检查 及 STUN 的 FINGERPRINT 属性 来 完成 的 。 当 采 
H TURN 时 ，ICE 客户 机 用 TURN 权限 来 限制 针对 感 兴趣 的 远 端 候 选 地 址 的 TURN 绑 定 。 

ICE 采用 了 不 同 的 实现 概念 。Lite 实现 是 专 为 没有 采用 NAT 的 系统 部 署 所 设计 的 。 它 们 
永远 不 会 充当 控制 代理 ， 除 非 与 另 一 个 Lite 实现 进行 交互 。 它 们 也 不 会 执行 前 面 提 到 的 完全 
(full) 实现 所 做 的 检查 。 发 出 的 STUN 报 文 会 表明 ICE 实现 的 类 型 。 所 有 ICE 实现 必须 遵守 
STUN[RFC5389]， 但 Lite 实现 将 永远 只 能 充当 STUN 服务 器 。ICE 通过 表 7-4 中 所 述 的 属性 
扩展 STUN. 


表 7-4 由 1CE 定义 的 STUN 属性 
值 


0x0024 
0x0025 













‘PRIORITY 
USE-CANDIDATE 


计算 出 相关 候选 地 址 的 优先 级 
通过 控制 代理 来 指示 选择 候选 地 址 
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( 续 ) 
名 称 — ca. 目的 /用 处 
ICE-CONTROLLED 指示 报 文 的 发 送 者 就 是 被 控制 的 代理 
ICE-CONTROLLING 指示 报 文 的 发 送 者 就 是 控制 代理 


检查 是 一 个 包含 PRIORITY 属性 的 STUN 绑 定 请 求 。 该 值 等 于 由 4.1.2 节 描 述 的 算法 
所 指定 的 值 [RFC5245]。 当 发 送 方 是 正在 控制 或 者 被 控制 的 代理 时 ，STUN 请 求 中 会 分 别 包 
含 ICE-CONTROLLING 和 ICE-CONTROLLED 属性 。 一 个 控制 代理 可 能 还 包括 一 个 USE- 
CANDIDATE 属性 。 如 果 存 在 ， 这 种 属性 指示 控制 代理 在 后 续 使 用 中 想 要 选择 的 代理 。 


7.5 配置 包 过 滤 防 火 墙 和 NAT 


NAT 通常 只 需 很 少 的 配置 (除非 端口 转发 正在 使 用 ), 但 是 防火 墙 通常 需要 进行 配置 ， 
有 时 它们 需要 大 量 的 配置 。 大 多 数 家 庭 网 络 中 ， 同 一 台 设 备 需 要 同时 提供 NAT. IP 路 由 和 
防火 墙 等 功能 ， 并 可 能 需要 一 些 配置 。 虽 然 每 个 配置 在 逻辑 上 是 独立 的 ， 但 是 配置 文件 、 命 
令 行 界面 、 网 页 控件 或 其 他 网 络 管理 工具 有 时 会 合并 。 


7.5.1 防火墙 规则 


包 过 滤 防 火 墙 ， 必 须 给 予 一 套 说 明 匹 配 条 件 的 指令 来 选择 丢弃 或 者 转发 流量 。 现 在 配 
置 一 个 路 由 器 ， 网 络 管理 员 通 常 配置 一 个 或 多 个 ACL。 每 个 ACL 包含 一 个 规则 列表 ， 其 中 
每 个 规则 通常 包含 模式 匹配 条 件 (pattern-matching criteria) 及 其 对 应 的 动作 ( action)。 匹 配 
条 件 通常 允许 规则 表达 网 络 层 或 传输 层 中 的 包 字 段 值 (例如 ， 源 和 目的 地 卫 地 址 、 端 口号 、 
ICMP 类 型 字段 等 ) 以 及 方向 (direction) 的 说 明 。 方 向 模式 采用 基于 方向 的 方式 来 匹配 流量 ， 
允许 不 同 的 规则 集 分 别 应 用 于 传人 与 传 出 的 流量 。 许 多 防火 墙 还 允许 在 处 理 顺序 中 的 某 一 点 
应 用 防火 墙 规 则 。 这 方面 的 例子 包括 能 够 在 IP 路 由 决策 过 程 之 前 或 之 后 指定 一 个 ACL。 在 
某 些 情况 下 (尤其 是 当 使 用 多 个 接口 时 )， 这 种 灵活 性 就 变 得 很 重要 。 

当 一 个 包 到 达 时 ， 在 适当 的 ACL 中 按照 顺序 匹配 其 中 的 匹配 条 件 。 对 于 大 多 数 的 防火 
墙 而 言 ， 按 照 第 一 个 匹配 的 规则 采取 动作 。 典 型 动作 包括 阻止 或 加 速 符合 某 项 规则 的 流量 ， 
还 可 以 调整 计数 器 或 写 一 个 日 志 条 目 。 一 些 防火 墙 可 能 也 包括 附加 功能 ， 如 将 特定 的 数据 包 
发 往 应 用 程序 或 其 他 主机 。 每 个 防火 墙 厂商 通常 有 自己 的 方法 来 指定 规则 ， 其 中 思科 系统 的 
ACL 格式 已 成 为 许多 企业 级 路 由 器 厂商 所 广泛 支持 的 一 种 格式 。 家 庭 用 户 的 ACL 配置 通常 
使 用 一 个 简单 的 Web 界面 。 

一 个 非常 流行 的 用 于 构建 防火 墙 的 系统 是 包含 在 现代 版 本 Linux 中 的 iptables， 它 是 使 
用 一 个 称 为 NetFilter [NFWEB] 的 网 络 过 滤 功 能 来 构建 的 。 这 是 早先 称 为 ipchains 功能 的 演 
变 ，iptables 能 够 提供 无 状态 和 有 状态 包 过 滤 以 及 NAT H NAPT 的 支持 。 我 们 应 研究 它 是 如 
何 工作 的 ， 以 更 好 地 理解 防火 墙 以 及 现代 NAT 提供 的 各 种 功能 。 

iptables 包含 过 滤 表 格 (table) 和 过 滤 链 (chain) 的 概念 。 一 个 表格 包括 许多 预定 义 
的 链 ， 也 可 能 包含 0 个 或 者 多 个 用 户 自 定义 的 链 。 三 个 预先 定义 的 表格 为 : filter，nat 和 
mangle。 默 认 的 filter 表格 用 来 处 理 基 本 的 包 过 滤 ， 包 括 了 预先 定义 的 INPUT, FORWARD 
和 OUTPUT 三 条 链 。 这 些 动 作 分 别 对 应 于 目的 地 是 防火 墙 路 由 器 本 身 运行 程序 的 流量 、 路 
由 时 通过 防火 墙 的 流量 以 及 从 该 防火 墙 主 机 发 出 的 流量 。nat 表格 包含 了 PREROUTING、 
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OUTPUT fil POSTROUTING =f. mangle 表格 有 五 条 链 ， 主 要 用 于 任意 修改 数据 包 。 

每 条 过 滤 链 是 一 个 规则 列表 ， 每 条 规则 包含 匹配 条 件 及 其 对 应 的 动作 。 这 个 动作 (也 
称 为 目标 ( target)) 可 能 是 执行 一 条 用 户 自 定义 的 链 或 者 执行 如 下 预定 义 的 动作 : ACCEPT, 
DROP, QUEUE 和 RETURN。 当 一 个 数据 包 匹 配 上 述 之 一 的 规则 时 ， 便 立即 采取 响应 的 动 
作 。ACCEPT (DROP) 是 指数 据 包 将 被 转发 (丢弃 )。QUEUE 是 指数 据 包 将 被 提交 给 一 个 用 
户 程序 处 理 ,RETURN 是 指 处 理 将 在 之 前 触发 的 一 条 链 中 继续 ， 形 成 了 一 种 包 过 滤 链 子 调用 。 

一 个 完整 的 防火 墙 配置 设计 是 非常 复杂 的 ， 而 且 针 对 用 户 特 定 需求 和 它们 所 需要 的 服 
务 类 型 ， 因 此 我 们 不 会 在 此 尝试 穷 举 每 一 个 。 相 反 ， 下 面 的 例子 只 是 给 出 了 iptables 中 一 小 
部 分 可 能 的 用 法 。 下 面 的 例子 给 出 了 一 个 Linux 防火 墙 配置 文件 。 它 是 由 一 个 shell 触发 的 ， 
如 bash: 


EXTIF="ext0" 

INTIF="eth0" 

LOOPBACK _INTERFACE="1o" 

ALL="0.0.0.0/0" # matches all 


# set default filter table policies to drop 
iptables -P INPUT DROP 

iptables -P OUTPUT DROP 

iptables -P FORWARD DROP 


# all local traffic OK 
iptables -A INPUT -i $LOOPBACK_INTERFACE -j ACCEPT 
iptables -A OUTPUT -i $LOOPBACK_INTERFACE -j ACCEPT 


# accept incoming DHCP requests on internal interface 
iptables -A INPUT -i SINTIF -p udp -s 0.0.0.0 \ 
--sport 67 -d 255.255.255.255 --dport 68 -j ACCEPT 


# drop unusual/suspect TCP traffic with no flags set 
iptables -A INPUT -p tcp --tcp-flags ALL NONE -j DROP 


这 个 例子 说 明了 用 户 在 设置 一 个 过 滤 规 则 列表 时 的 灵活 性 。 初 始 时 ， 所 有 的 链 都 采用 
默认 规则 ( -P 选项 )， 将 会 影响 所 有 没有 匹配 上 规则 的 数据 包 。 通 过 设置 filter 表 中 的 INPUT 
Al OUTPUT 链 ， 所 有 进出 本 计算 机 (采用 伪 接 口 ( pseudo interface) lo 表示) 的 流量 都 被 设 
置 为 ACCEPT ( 即 接受 )。 其 中 ，-j 选项 意味 着 “ 跳 转 ”到 一 个 特定 的 处 理 目标 。 接 下 来 ， 
从 IPv4 地 址 0.0.0.0 进来 的 UDP 广播 流量 ， 以 及 目的 地 采用 DHCP 端口 号 (67, 68) 的 本 
地 / 子 网 广播 流量 ， 都 经 由 内 部 接口 被 允许 通过 。 接 着 ， 将 所 有 进来 的 TCP 段 (参见 第 13 
章 ) 的 标志 (Flags) 字段 和 1 (ALL) 相 与 (AND)， 再 将 结果 与 0 (NONE) 比较 。 当 所 有 的 
标志 字段 都 为 0 时 匹配 成 功 ， 说 明 这 不 是 一 个 非常 有 用 的 TCP 段 〈 正 常情 况 下 ， 第 一 个 TCP 
段 包含 SYN 标志 位 ， 其 后 的 每 个 TCP 段 将 包含 一 个 有 效 的 ACK 标志 位 )。 

尽管 这 个 例子 所 阐明 的 语法 是 针对 iptables 的 ， 但 是 它 的 功能 却 不 是 。 多 数 过 滤 性 防火 
墙 都 能 够 执行 类 似 的 检查 和 动作 。 


7.5.2 NAT 规则 


在 多 数 简单 的 路 由 器 中 ，NAT 能 够 配置 为 和 防火 墙 一 起 工作 。 在 基本 的 Windows 系统 
H, NAT 被 称 为 互联 网 连接 共享 ( Internet Connection Sharing，ICS)， 在 Linux 中 被 称 为 IP 
伪装 (IP masquerading)。 以 Windows XP 为 例 ，ICS 有 一 些 独 有 的 特征 。 它 为 运行 ICS 的 主 
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机 分 配 了 192.168.0.1 的 “内 部 ”IPv4 地 址 ， 同 时 启动 了 一 个 DHCP 服务 器 和 DNS 服务 器 。 
其 他 的 主机 地 址 从 192.168.0/24 子 网 段 中 分 配 ， 并 将 ICS 主机 作为 DNS 服务 器 。 因 此 ， 在 
已 经 有 其 他 的 主机 或 者 路 由 器 提供 了 上 述 服务 或 者 存在 地 址 冲突 的 网 络 中 ，ICS 不 应 该 被 启 
用 。 通 过 修改 注册 配置 能 够 修改 默认 的 地 址 范围 。 

在 Windows XP 中 为 一 个 互联 网 连接 启动 ICS 可 以 通过 网 络 设置 向 导 来 完成 ， 或 者 在 一 
个 已 经 运行 了 的 互联 网 连接 中 改变 “高 级 ”属性 (在 “配置 | 网 络 连接 ”中 )。 至 此 ， 用 户 可 
能 决定 允许 别 的 用 户 来 控制 或 者 关闭 共享 网 络 连 接 。 这 个 功能 也 被 称 为 互联 网 网 关 设 备 发 现 
和 控制 (Internet Gateway Device Discovery and Control，IGDDC), 它 采用 了 通用 的 即 插 即 用 
的 框架 ， 人 允许 在 一 个 客户 机 中 控制 本 地 互联 网 网 关 ， 该 内 容 在 7.5.3 节 中 有 介绍 。 所 支持 的 
功能 包括 连接 、 断 开 ， 同 时 读 取 各 种 状态 信息 。 与 ICS 一 起 工作 的 Windows 防火 墙 功 能 支 
持 创 建 服务 定义 〈service definition)。 服 务 定义 等 同 于 之 前 定义 的 端口 转发 。 为 了 使 之 有 效 ， 
需要 选中 互联 网 连接 中 的 “高 级 ”属性 标签 ， 再 添加 一 个 新 的 服务 (或 者 编辑 一 个 现 有 的 服 
务 )。 然 后 ， 用 户 在 外 部 接口 和 内 部 服务 器 中 便 能 够 十 人 合适 的 TCP 和 UDP 端口 号 。 这 样 
也 为 进来 的 连接 提供 了 一 种 配置 NAPT 的 方法 。 

和 Windows 一 样 ，Linux 也 将 伪装 功能 和 防火 墙 实 现 结合 在 一 起 。 下 面 的 脚本 以 一 种 简 
单 的 方式 来 配置 伪装 。 注 意 这 种 脚本 是 用 来 说 明 的 ， 并 不 建议 在 产品 中 推荐 使 用 。 

EXTIF="ext0” 


echo "Default FORWARD policy: DROP" 
iptables -P FORWARD DROP 


echo "Enabling NAT on $EXTIF for hosts 192.168.0.0/24" 
iptables -t nat -A POSTROUTING -o SEXTIF -s 192.168.0.0/24 \ 
-j MASQUERADE 


echo "FORWARD policy: DROP unknown traffic" 
iptables -A INPUT -i SEXTIF -m state --state NEW,INVALID -j DROP 
iptables -A FORWARD -i SEXTIEF -m state --state NEW,INVALID -j DROP 


此 处 ，filter 表格 中 FORWARDING 链 的 默认 策略 被 设置 为 DROP。 在 路 由 已 经 决定 采 
取 哪 个 合适 的 外 部 接口 时 ， 下 一 个 项 目 是 对 从 192.168.0.0/24 子 网 中 获取 了 IPv4 地 址 的 主机 
流量 的 地 址 进行 重 写 (通过 NAT 中 的 nat 表格 和 -t nat 选项 来 实现 )。 由 于 NAT 的 有 状态 的 
工作 方式 ， 目 前 将 有 可 能 调整 filter 表格 的 规则 以 只 允许 为 NAT 所 知 的 连接 的 流量 通过 。 最 
后 的 两 行 调 整 了 INPUT #il FORWARD 链 ， 将 丢弃 任何 无 效 或 者 未 知 (NEW) 的 传人 流量 。 
特殊 的 操作 符 NEW Ail INVALID 是 在 iptables 命令 之 内 定义 的 。 


7.5.3 与 NAT 和 防火 墙 的 直接 交互 : UPnP、NAT-PMP 和 PCP 


在 多 数 情况 下 ， 一 个 客户 系统 希望 或 者 需要 和 防火 墙 直接 交互 。 例 如 ， 一 个 防火 墙 需要 
为 不 同 的 服务 配置 或 者 再 配置 ， 以 保证 针对 特定 端口 的 网 络 流量 不 会 被 丢弃 (创建 一 个 “小 
FL”) 在 一 个 代理 防火 墙 正 在 被 使 用 的 情况 下 ， 每 个 客户 机 必须 被 告知 代理 的 身份 。 否 则 的 
话 ， 就 无 法 越过 防火 墙 进 行 通信 。 目 前 已 经 开发 了 许多 支持 客户 机 和 防火 墙 之 间 进 行 通信 的 
协议 。 其 中 两 个 最 为 流行 的 是 通用 即 插 即 用 (Universal Plug and Play, UPnP) 和 NAT 端口 
映射 协议 (NAT Port Mapping Protocol，NAT-PMP)。UPnP 这 个 标准 是 由 一 个 称 为 UPnP 论 
坛 的 工业 组 开发 的 。NATPMP 目前 是 IETF 中 一 个 到 期 的 草稿 文件 。NAT-PMP 为 绝 大 多 数 
的 Mac OS 系统 所 支持 。UPnP 在 Windows 系统 中 是 原生 支持 的 ， 也 能 够 被 添加 到 Mac OS 
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和 Linux 系统 。UPnP 也 被 数字 生活 网 络 联盟 (DLNA) [DLNA] 用 于 家 庭 网 络 中 支持 消费 电 
子 设 备 发 现 协议 。 

通过 采用 UPnP， 被 控制 的 设备 通过 第 一 个 DHCP 来 配置 IP 地址 ， 如 果 DHCP 不 可 用 
的 话 ， 就 采用 动态 链接 - 本 地 地 址 配置 (参见 第 6 章 )。 接 着 ， 简 单 服 务 发 现 协议 ( Simple 
Service Discovery Protocol, SSDP) [XIDS] 向 控制 点 〈( 例 如， 客户 机 ) 宣布 设备 的 存在 ， 
同时 允许 控制 点 来 查询 设备 的 其 他 信息 。SSDP 使 用 了 基于 UDP 的 两 个 HTTP 变种 来 代 
蔡 更 为 标准 的 TCP， 它们 被 称 为 HTTPU 和 HTTPMU[XIDMU]， 其 中 后 者 使 用 组 播 寻 址 
( IPv4 地 址 239.255.255.250， 端 口 1900 )。 如 果 使 用 基于 IPv6 的 SSDP， 那 么 将 采用 如 下 
的 地 址 : ff01::c (本 地 节点 )，ff02::c (本 地 连接 )，ff05::c (本 地 站 点 )，ff08::c (本 地 组 织 )， 
ffoe::c (全 局 )。 

后 续 的 控制 和 事件 通知 (eventing) 是 由 通用 事件 通知 架构 (General Event Notification 
Architecture, GENA) 控制 的 ， 它 采用 了 简单 对 象 访 问 协议 (Simple Object Access Protocol, 
SOAP), SOAP 支持 客户 /服务 器 远程 过 程 调用 (Remote Procedure Call, RPC) 机 制 ， 使 
用 编码 在 可 扩展 标记 语言 (eXtensible Markup Language, XML) 中 的 报 文 ( XML 通常 用 于 
Web 网 页 中 )。UPnP 被 消费 电子 设备 所 广泛 采用 ， 包 含 音频 和 视频 回放 和 存储 设备 。NAT 
和 防火 墙 设备 是 采用 互联 网 网 关 设 备 ( Internet Gateway Device, IGD) 协议 控制 的 [IGD]。 
IGD 支持 一 些 别 的 功能 ， 包 括 学 习 NAT 映射 和 配置 端口 转发 的 能 力 。 感 兴趣 的 读者 可 以 从 
MiniUPnP 项 目 主页 [UPNPC] 中 得 到 一 个 简单 的 IGD 客户 端 用 于 实验 。UPnP IGD 的 第 二 个 
版 本 [IGD2] 增加 了 对 IPv6 的 支持 。 

UPnP 是 一 个 包含 NAT 控制 及 其 他 不 相关 规范 的 广泛 架构 ， 而 NAT-PMP 是 另外 一 种 方 
法 ， 它 针对 与 NAT 设备 进行 程序 通信 。NAT-PMP 是 苹果 公司 用 于 零 配 置 网 络 的 服务 器 搜索 
协议 Bonjour 规范 的 一 部 分 。NAT-PMP 并 没有 采用 发 现 过 程 ， 这 是 由 于 被 管理 的 设备 通常 
就 是 可 通过 DHCP 获取 的 默认 网 关 。NAT-PMP 使 用 UDP 端口 5351。NAT-PMP 支持 一 个 用 
于 学 习 NAT 外 部 地 址 和 配置 端口 映射 的 请 求 / 响应 协议 。 它 也 支持 一 个 基本 的 事件 机 制 ， 当 
NAT 外 部 地 址 发 生 改 变 时 能 够 通知 监听 者 。 这 是 在 外 部 地 址 发 生 改变 时 通过 采用 一 个 UDP 
组 播报 文 发 送 到 地 址 224.0.0.1( 即 所 有 主机 的 地 址 ) 来 完成 的 。NAT-PMP 使 用 UDP 端口 号 
5350 用 于 客户 机 /服务 器 的 交互 ，5351 端口 用 于 组 播 事件 通知 。 根 据 端口 控制 协议 (Port 
Control Protocol, PCP) [IDPCP] 的 建议 ，NAT-PMP 的 概念 可 被 扩展 用 于 支持 SPNAT。 


7.6 1IPv4/IPv6 共存 和 过 渡 中 的 NAT 


随 着 最 后 一 个 顶层 单 播 IPv4 地 址 在 2011 年 早期 被 分 配 出 去 ， 向 IPv6 的 过 渡 便 开 
始 加 速 了 。 曾 经 认为 通过 为 主机 配备 双 栈 功能 (例如 ， 实 现 完 整 的 IPv4 和 IPv6 协议 栈 ) 
[RFC4213]， 网 络 服务 就 会 过 渡 到 只 有 IPv6 的 操作 。 目 前 认为 Pv4 和 IPv6 将 会 共存 更 长 一 
段 时 间 ， 甚 至 可 能 是 无 限期 的 ， 这 是 由 于 各 种 经 济 原因 网 络 基础 设施 可 能 会 使 用 IPv4 或 者 
IPv6 或 者 两 者 同时 使 用 。 假 设 这 是 真 的 ， 那 就 需要 支持 IPv4 和 IPv6 系统 之 间 的 通信 ， 无 论 
它们 是 否 拥 有 双 协 议 栈 。 目 前 用 于 支持 IPv4 和 IPv6 组 合 的 两 种 主要 方法 是 隧道 和 转换 。 隧 
道 方法 包括 Teredo ( 见 第 10 章 )、 双 协议 栈 精简 版 (DS-Lite) 和 IPv6 快速 部 署 (6rd)。 虽 然 
DS-Lite 采用 SPNAT 作为 其 架构 的 一 部 分 ,但 在 [RFC6144] 描述 的 框架 中 给 出 了 一 种 更 单一 
的 转换 方法 ， 它 使 用 了 我 们 在 第 2 章 中 见 到 过 的 敌人 了 IPv4 的 IPv6 地 址 。 我 们 将 在 本 节 更 
为 详尽 地 讨论 DS-Lite 和 转换 架构 的 细节 。 
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7.6.1 双 协 议 栈 精简 版 


DS-Lite ( Dual Stack Lite， 双 协议 栈 精简 版 ) [RFC6333] 是 一 种 希望 在 内 部 运行 IPv6 的 
服务 提供 者 更 容易 过 渡 到 IPv6 (同时 支持 传统 的 IPv4 用 户 ) 的 方法 。 从 本 质 上 讲 ， 它 可 以 
让 供应 商 把 重点 放 在 部 署 一 个 可 操作 的 IPv6 核心 网 上 ， 还 通过 使 用 少数 的 IPv4 地 址 为 客 
户 提供 了 IPv4 和 IPv6 连接 。 该 方法 结合 了 在 IPv6 中 的 IPv4 (IPv4-in-IPv6 ) 的 “ 软 电线 ” 
(softwire) 隧道 与 SPNAT[RFC5571]。 图 7-16 显示 了 这 种 部 署 的 设想 。 
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图 7-16 DS-Lite 通过 使 用 一 个 只 有 IPv6 的 架构 使 服务 提供 者 能 够 支持 IPv4 和 IPv6 客户 网 络 。 通 过 
在 服务 提供 者 边缘 使 用 SPNAT， 能 够 最 大 限度 地 减少 IPv4 的 使 用 


在 图 7-16 中 ， 每 个 客户 网 络 运行 IPv4 和 IPv6 的 任意 组 合 。 假 定 仅 使 用 IPv6 来 管理 服 
务 提供 者 的 网 络 。 客 户 对 IPv6 互联 网 的 访问 是 通过 采用 传统 的 IPv6 路 由 来 完成 的 。 对 于 
IPv4 的 访问 ， 每 个 客户 使 用 一 个 特殊 的 “前 ”网 关 (在 图 7-16 中 标记 为 “B4”)。 一 个 B4 
设备 提供 了 基本 的 IPv4 服务 (如 DHCP ARS, DNS 代理 等 )， 但 也 以 多 点 到 点 的 隧道 方式 封 
装 了 客户 的 IPv4 流量 ， 并 在 “后 ”设备 (图 7-16 中 标记 为 “AFTR”) 处 终止 。 这 个 AFTR 
设备 为 目标 是 IPv4 互 联网 的 流量 执行 了 解 封 操作 ， 并 为 相反 方向 的 流量 执行 封装 操作 。 
AFTR 还 执行 了 NAT， 并 作为 一 种 形式 的 SPNAT。 更 具体 地 说 ，AFTR 可 以 利用 客户 隧道 终 
端的 标志 信息 来 消除 从 IPv4 互联 网 返回 到 AFTR 的 流量 的 二 义 性 。 这 将 允许 多 个 客户 使 用 
相同 的 IPv4 地 址 空间 。 通 过 利用 DHCPv6 中 的 一 个 AFTR-Name 选项 [RFC6334], 一 个 B4 
设备 能 够 学 习 到 它 所 对 应 的 AFTR 设备 的 名 称 。 

回忆 一 下 第 6 章 中 对 IPv6 快速 部 署 ( 6rd) 的 讨论 是 非常 有 益 的 。 鉴 于 DS-Lite 通过 一 
个 服务 提供 者 的 IPv6 网 络 为 客户 提供 了 到 IPv4 的 访问 ，6rd 的 目标 是 通过 一 个 服务 提供 者 
的 IPv4 网 络 为 客户 提供 到 IPv6 的 访问 。 本 质 上 ， 它 们 使 用 类 似 的 框架 组 件 ， 但 却 采 取 了 相 
反 的 做 法 。 然 而 ，6rd 中 从 IPv6 地 址 映射 到 相应 的 IPv4 隧道 端点 (反之 亦 然 ) 的 计算 ， 是 通 
过 一 个 无 状态 的 地 址 映射 算法 完成 的 。 框 架 中 也 使 用 了 无 状态 地 址 转换 ， 用 于 IPv4 和 IPv6 
之 间 的 全 协议 转换 ， 这 是 我 们 接 下 来 需要 讨论 的 。 


7.6.2 ”使 用 NAT 和 ALG 的 IPv4/IPv6 转换 


采用 隧道 技术 解决 IPv4 和 IPv6 共存 问题 的 最 大 缺点 是 ， 采用 一 种 地 址 类 型 的 主机 上 340 
的 网 络 服务 无 法 被 采用 了 男 一 种 地 址 类 型 的 主机 直接 访问 。 由 此 ， 一 个 只 有 IPv6 的 主机 就 
只 能 够 与 其 他 支持 IPv6 的 系统 进行 通信 。 这 种 状况 是 不 能 接受 的 ， 因 为 只 支持 IPv6 的 新 系 
统 将 无 法 访问 在 传统 的 IPv4 互联 网 上 提供 的 服务 。 为 了 解决 这 个 问题 ， 在 2008 年 至 2010 
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年 间 花 了 很 大 的 努力 开发 了 一 个 能 够 直接 在 IPv4 和 IPv6 间 进 行 转换 的 框架 。 借 鉴 NAT- 
PT[RFC2766] 已 有 的 糟糕 经 验 ， 这 个 框架 被 认为 太 脆弱 了 ， 针 对 今后 不 断 变化 的 使 用 也 没有 
可 扩展 性 ， 因 此 最 终 被 舍弃 了 [RFC4966]。 

IPv4 和 IPv6 转换 的 框架 在 [RFC6144] 中 有 描述 。 这 个 基本 的 转换 架构 同时 采用 了 有 状 
态 的 和 无 状态 的 方法 来 完成 IPv4 和 JPv6 地 址 之 间 的 转换 、DNS 的 转换 (参见 第 11 章 )， 以 
及 在 任何 必要 情况 下 (包括 ICMP A FTP) 添加 的 行为 或 者 ALG 的 定义 。 本 节 我 们 将 讨论 的 
内 容 包括 基于 [RFC6145] 和 [RFC6146] 的 有 状态 和 无 状态 的 IP 地 址 转换 ， 以 及 第 2 章 中 讨 
论 过 的 源 于 [RFC6052] 的 寻 址 。 其 他 针对 特定 协议 的 转换 问题 将 在 后 续 的 章节 中 讨论 。 


7.6.2.1 已 转换 的 IPv4 地 址 和 可 转换 的 IPv4 地 址 

在 第 2 章 , 我 们 已 经 讨论 了 内 岩 有 IPv4 的 IPv6 地 址 结构 。 这 样 的 地 址 是 IPv6 地 
址 ， 但 是 将 其 作为 一 个 函数 的 输入 ， 则 能 够 输出 一 个 对 应 的 IPv4 地 址 。 这 个 函数 也 能 轻 
Sy He BIG. AER IPv4 的 IPv6 地 址 存在 两 种 重要 的 类 型 ， 称 为 已 转换 的 IPv4 地 址 ( IPv4- 
converted address) 和 可 转换 的 IPv4 地 址 (IPv4-translatable address)。 每 个 提 到 的 地 址 类 型 
是 其 他 类 型 的 一 个 子 集 。 也 就 是 说 ， 如 果 我 们 将 每 个 地 址 类 型 看 作 一 个 集合 ， 那 么 会 有 (可 
转换 的 IPv4 ) C (已 转换 的 IPv4 ) C (ARRAY IPv4) C (IPv6 )。 可 转换 的 IPv4 地 址 是 能 够 
通过 有 状态 的 方式 来 确定 一 个 IPv4 地 址 的 IPv6 地 址 (参见 7.6.2.2 节 )。 

IPv4 和 IPv6 地 址 之 间 的 算法 转换 涉及 使 用 第 2 章 中 讨论 过 的 前 级 。 这 个 前 级 可 能 是 
一 个 知名 前 级 ( WKP) 64:ff9b::/96 或 者 另外 一 个 为 服务 提供 者 所 有 并 和 转换 器 一 起 使 用 的 
特定 于 网 络 的 前 级 。WKP 只 用 于 表示 常规 的 全 局 可 路 由 的 IPv4 地 址 ， 不 能 表示 私有 地 址 
[RFC1918]。 此 外 ，WKP 也 不 能 用 于 创建 可 转换 的 IPv4 地 址 。 这 样 的 地 址 应 该 在 服务 提供 
者 网 络 内 部 被 定义 ， 因 此 不 适合 在 一 个 全 局 范围 中 使 用 。 

WKP 是 很 有 趣 的 ， 因 为 相对 于 Internet 校 验 和 ， 它 是 校 验 和 中 立 (checksum-neutral) 
的 。 回 想 一 下 第 5 章 介 绍 的 Internet 校 验 和 的 计算 方法 。 假 如 我 们 将 前 级 64:ff9b::/96 看 作 
是 十 六 进 制 值 0064, ff9b, 0000, 0000, 0000, 0000, 0000, 0000 组 成 的 ， 这 些 值 的 和 是 fff, È 
的 补 码 正 好 是 0。 因此 ， 当 一 个 IPv4 地 址 包含 WKP 前 缀 时 ， 包 中 作为 转换 结果 (例如 ,在 
IPv4 头 部 中 的 TCP 或 者 UDP REA) 的 相关 Internet 校 验 和 是 不 会 受 影响 的 。 自 然 地 ， 恰 
当选 择 的 特定 于 网 络 的 前 级 也 能 是 校 验 和 中 立 的 。 

在 接 下 来 的 两 个 小 节 中 ， 我 们 将 使 用 符号 To4(A6,，P) 来 表示 从 前 缀 为 P 的 IPv6 地 
址 A 中 得 到 的 IPv4 地 址 。P 可 以 是 WKP 或 者 是 某 个 特定 于 网 络 的 前 级 。 我 们 将 使 用 符号 
To6(A4，P) 来 表示 从 前 级 为 P 的 IPv4 地 址 A 中 得 到 的 IPv6 地 址 。 注 意 ， 除 了 一 些 特殊 的 
情况 之 外 ，A6 = To6(To4(A6,P),P) 和 A4 = To4(To6(A4,P),P)。 


7.6.2.2 无 状态 转换 

无 状态 的 IP/ICMP 转换 (Stateless IP/ICMP Translation, SIT) 是 指 不 采用 状态 表格 进行 
IPv4 和 IPv6 数据 包 转 换 的 方法 [RFC6145]。 转 换 中 无 须 查找 表格 ， 只 需要 使 用 一 个 可 转换 
的 IPv4 地 址 及 一 个 预定 义 的 用 于 转换 IP 头 部 的 计划 。 大 部 分 情况 下 ，IPv4 选项 是 不 需要 转 
换 的 (被 忽略 )，IPv6 扩展 头 部 也 不 需要 转换 (分 片头 部 例外 )。 唯 一 的 例外 是 未 到 期 的 IPv4 
源 路 由 选项 。 如 果 存 在 这 种 选项 ， 数 据 包 将 被 丢弃 ， 并 产生 相应 的 ICMP 差错 报 文 (目的 不 
可 达 ， 源 路 由 失败 ， 见 第 8 章 )。 表 7-5 描述 了 当 转 换 一 个 IPv4 报 文 到 IPv6 时 ，IPv6 头 部 
字段 是 如 何 赋值 的 。 
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#7-5 当 从 1Pv4 转换 到 IPv6 时 创建 一 个 IPv6 头 部 的 方法 


IPv6 字段 分 配方 法 
版 本 (Version) 设置 为 6 
DS 字段 /ECN (DS Field/ECN) 拷贝 自 IPv4 头 部 中 的 相同 值 
流标 志 (Flow Label) 设置 为 0 
负载 长 度 (Payload Length) 设置 为 IPv4 的 总 长 度 减 去 IPv4 头 部 长 度 (包含 选项 ) 
设置 为 IPv4 协议 字段 (或 者 58， 如 果 协 议 字 段 值 为 1 ) 
下 一 个 头 部 (Next Header) 设置 为 44 来 表示 是 一 个 分 片头 部 ， 如 果 创 建 的 IPv6 数据 报 是 一 个 
分 片 或 者 DF 位 没有 被 设置 

p 设置 为 IPv4 TTL 字段 减 去 1( 如 果 这 个 值 为 0， 则 该 报 文 将 被 丢弃 ， 
跳 数 限制 (Hop Limit) 同时 产生 一 个 ICMP 超时 报 文 ， 参 见 第 8 BE) 
源 IP 地 址 (Source IP Address) 设置 为 6 (IPv4 W IP 地址 , P) 
目的 JP 地址 (Destination IP Address) 设置 为 6 (IPv4 HÉJ IP 地址, P) 


在 转换 的 过 程 中 ，IPv4 头 部 被 抽 离 ， 取 而 代 之 的 是 IPv6 头 部 。 假 如 到 达 的 IPv4 数据 报 
相对 于 下 一 个 链 路 的 MTU 来 说 太 大 了 ， 并且 其 头 部 中 的 DF 位 也 未 设置 ， 那 么 将 会 产生 多 
个 IPv6 分 片 数 据 包 ， 其 中 每 个 将 包 售 一 个 分 片头 部 。 当 到 达 的 IPv4 数据 报 是 一 个 分 片 时 ， 
也 会 发 生 这 种 情况 。[RFC6145] 建议 当 到 达 的 IPv4 数据 报头 部 的 DF 位 值 为 0 时， 不 管 转换 BR 
器 是 否 需 要 执行 分 片 ， 也 不 管 达 到 的 数据 报 是 否 是 一 个 分 片 ， 都 需要 在 结果 IPv6 数据 报 中 
包含 一 个 分 片头 部 。 这 将 允许 IPv6 接收 者 知道 IPv4 的 发 送 者 并 没有 采用 PMTUD。 当 包含 
了 一 个 分 片头 部 时 ， 需 要 根据 表 7-6 所 列 的 方法 来 设置 字段 值 。 





表 7-6 从 IPv4 到 IPv6 转换 时 为 分 片头 部 中 字段 赋值 的 方法 


分 片头 部 字段 分 配方 法 
下 一 个 头 部 (Next Header) 设置 为 IPv4 中 的 协议 字段 
分 片 偏 移 (Fragment Offset) 找 贝 自 IPv4 分 片 偏 移 字段 
更 多 分 片 位 (More Fragments Bit) 拷贝 自 IPv4 中 的 更 多 分 片 (M) 位 字段 
标识 (Identification) 低 16 位 根据 IPv4 中 的 标识 字段 设置 。 高 16 位 设置 为 0 


在 相反 的 方向 (IPv6 到 IPv4 转换 ) 上 会 涉及 创建 一 个 IPv4 数据 报 ， 并 根据 到 达 的 IPv6 
头 部 字段 值 来 设置 该 头 部 字段 值 。 显 然 ， 范 围 更 广 的 IPv6 地 址 空间 不 可 能 允许 一 个 只 有 
IPv4 的 主机 访问 IPv6 互联 网 上 的 每 一 台 主 机 。 当 一 个 未 分 片 的 IPv6 数据 报到 达 时 ， 表 7-7 
给 出 的 方法 能 给 传 出 的 IPv4 数据 报头 部 的 字段 赋值 。 


表 7-7 将 一 个 未 分 片 的 1Pv6 数据 报 转换 为 IPv4 时 用 于 创建 IPv4 头 部 的 方法 











IPv4 头 部 字段 分 配方 法 
版 本 (Version) 设置 为 4 
IHL 设置 为 5 (没有 IPv4 选项 ) 
DS 字段 /ECN (DS Field/ECN) 拷贝 自 IPv6 头 部 中 的 相同 值 
总 长 度 (Total Length) IPv6 中 负载 长 度 字 段 值 加 上 20 
标识 (Identification ) 设置 为 0( 可 以 选择 设置 为 其 他 一 些 预 设 的 值 ) 
标志 (Flags) 更 多 分 片 (M) 设置 为 0; KAA (Don’t Fragment)(DF) 设置 为 1 
分 片 偏 移 (Fragment Offset) 设置 为 0 


TTL IPv6 中 跳 数 限制 字段 值 减 去 1 
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( 续 ) 
IPv4 头 部 字段 分 配方 法 
拷贝 自 IPv6 的 第 一 个 下 一 个 头 部 字段 ， 不 涉及 分 片头 部 、HOPOPT、 
IPv6-Route 或 者 IPv6-Opts。 将 值 58 改变 为 1 来 支持 ICMP (参见 第 8 章 ) 
头 部 校 验 和 (Header Checksum) 为 新 创建 的 IPv4 头 部 而 计算 
源 IP 地 址 (Source IP Address) To4 (IPv6 源 下 地 址 ，P) 
目的 IP 地 址 (Destination IP Address) To4 (IPv6 目的 IP 地址 ，P) 


协议 (Protocol) 


假如 到 达 的 一 个 IPv6 数据 报 包含 一 个 分 片头 部 ， 将 采用 从 表 7-7 修改 而 来 的 赋值 方法 
来 为 传 出 的 IPv4 数据 报 字段 赋值 。 表 7-8 给 出 了 这 种 情况 。 


表 7-8 当 转 换 一 个 分 片 的 IPv6 到 IPv4 时 用 于 创建 IPv4 头 部 的 方法 


IPv4 头 部 字段 分 配方 法 
总 长 度 (Total Length) IPv6 负载 长 度 字 段 值 减 去 8 加 上 20 
标识 (Identification) HA IPv6 分 片头 部 标识 字段 中 的 低 16 位 
ESTA (M) 拷贝 自 IPv6 分 片头 部 中 的 M 位 字段 。 不 分 片 ( DF) 设 
标志 (Flags) 


置 为 0 以 便 允 许 IPv4 网 络 中 的 分 片 
分 片 偏 移 (Fragment Offset) 拷贝 自 IPv6 分 片头 部 中 的 分 片 偏 移 字段 


在 分 片 IPv6 数据 报 的 情况 下 ， 转 换 器 将 生成 分 片 的 IPv4 报 文 。 注 意 在 IPv6 中 标识 
(Identification) 字段 更 大 ， 假 如 来 自 于 同一 台 主 机 的 多 个 不 同 的 IPv6 数据 报 被 分 片 了 ， 并 且 
它们 的 标识 字段 共享 了 一 个 低 16 位 值 ， 这 些 分 片 将 可 能 无 法 重组 。 但 是 ， 这 种 情况 的 危险 
性 低 于 传统 的 IPv4 的 标识 字段 中 出 现 的 环绕 情况 。 况 且 ， 更 高 层次 上 的 完整 性 检查 将 大 大 
打消 这 种 顾虑 。 


7.6.2.3 有 状态 的 转换 

在 有 状态 的 转换 中 ，NAT64[RFC6146] 被 用 于 支持 只 有 IPv6 的 客户 机 与 其 他 IPv4 AR 
务 器 进行 通信 。 当 许多 重要 的 服务 继续 只 用 IPv4 来 提供 时 ， 这 将 显得 非常 重要 。 针 对 头 部 
的 转换 方法 与 7.6.2.2 节 中 介绍 的 无 状态 转换 方法 几乎 一 样 。 作 为 一 个 NAT，NAT64 符合 
BEHAVE 规格 ， 支 持 独立 于 端点 的 映射 ， 以 及 独立 于 端点 和 依赖 于 地 址 的 过 滤 。 因 此 ， 它 是 
和 我 们 前 面 讨论 过 的 NAT 穿越 技术 (如 ICE、STUN、TURN) 兼容 的 。 缺 乏 这 些 附 加 协议 ， 
NAT64 仅 支 持 由 IPv6 主机 发 起 的 与 IPv4 主机 通信 的 动态 转换 。 

NAT64 在 跨越 多 个 地 址 类 型 时 像 传 统 的 NAT (NAPT) 那样 工作 ， 除 了 从 IPv4 到 IPv6 
这 个 方向 的 转换 比 相 反方 向 的 转换 更 加 简单 。 一 个 NAT64 设备 被 赋予 一 个 IPv6 前 级 ， 能 用 
于 形成 一 个 有 效 的 IPv6 地 址 ， 该 地 址 是 通过 第 2 章 和 [RFC6052] 描述 的 机 制 从 IPv4 上 直接 
转换 过 来 的 。 由 于 IPv4 地 址 空间 的 不 足 ， 在 IPv6 到 IPv4 这 个 方向 的 转换 利用 了 一 个 动态 管 
理 的 IPv4 地 址 池 。 这 需要 NAT64 支持 NAPT 的 功能 ， 据 此 多 个 不 同 的 IPv6 地 址 可 能 会 映 
射 到 一 个 相同 的 IPv4 地 址 上 。NAT64 目前 定义 了 由 IPv6 节点 初始 化 的 TCP、UDP 和 ICMP 
报 文 的 转换 方法 。( 在 ICMP 查询 和 应 答 的 情况 下 ，ICMP 标识 符 字段 被 用 来 代替 传输 层 的 端 
口号 ， 见 第 8 章 。) 

NAT64 处 理 分 片 不 同 于 其 有 状态 部 分 。 对 于 到 达 的 传输 层 校 验 和 不 为 0 的 TCP 或 者 
UDP 分 片 ( 见 第 10 章 )，NAT64 可 能 会 将 分 片 排队 ， 然 后 一 起 或 者 单独 地 转换 它们 。NAT64 
必须 处 理 分 片 ， 即 便 是 那些 乱 序 到 达 的 。 一 个 NAT64 可 能 被 配置 一 个 时 限 ， 限 制 分 片 被 组 
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存 的 时 间 (至 少 为 2s)。 否 则 ，NAT 可 能 受到 DoS 攻击 ， 耗 尽 保存 分 片 的 包 缓冲 空间 。 


7.7 与 防火 墙 和 NAT 相关 的 攻击 


鉴于 部 署 防火 墙 的 主要 目的 是 减少 攻击 的 风险 ， 因 此 防火 墙 的 缺点 比 终端 主机 或 路 由 器 
少 一 些 也 不 奇怪 。 这 就 是 说 ， 它 们 不 是 没有 缺点 的 。 最 常见 的 防火 墙 问题 是 由 不 完整 或 不 正 
确 配置 导致 的 。 配 置 防火 墙 不 是 一 个 简单 的 任务 ， 尤 其 是 大 型 企业 ， 其 中 许多 服务 需要 每 天 
使 用 。 其 他 形式 的 攻击 利用 了 某 些 防火 墙 的 弱点 ， 包 括 其 中 许多 防火 墙 (尤其 是 比较 老 的 ) 
没有 能 力 来 处 理 IP 分 片 。 

一 种 类 型 的 问题 出 现在 NAT/ 防火 墙 受到 外 部 劫持， 进而 为 攻击 者 提供 伪装 能 力 。 如 果 
防火 墙 的 配置 启用 了 NAT， 那 么 在 其 外 部 接口 到 达 的 流量 会 被 重 写 ， 因 此 这 些 流量 看 起 来 好 
像 是 来 自 于 NAT 设备 的 ， 从 而 隐藏 了 攻击 者 的 实际 地 址 。 更 糟糕 的 是 ， 从 NAT 的 角度 来 看 
这 是 “正常 ”的 行为 , 但 它 恰恰 是 从 外 面 得 到 的 输入 数据 包 而 不 是 在 内 部 得 到 的 。 这 是 一 个 
在 Linux 上 基于 ipchains 的 NAT/ 防火 墙 规则 的 特定 问题 。 最 简单 的 设置 伪装 的 配置 


Linux# ipchains -P FORWARD MASQUERADE 


将 会 允许 这 种 攻击 发 生 ， 因 此 并 不 推荐 。 正 如 所 看 到 的 ， 它 将 默认 策略 设置 为 MASQUERADE, 
潜在 地 对 任何 IP 实行 转发 。 

男 一 种 与 防火 墙 和 NAT 规 则 相关 的 问题 是 ， 它 们 可 能 过 时 了 。 尤 其 是 ， 它 们 可 能 包 
含 端口 转发 条 目 或 其 他 所 谓 的 小 孔 ， 允 许 已 不 存在 的 服务 的 流量 通过 。 一 个 相关 的 问题 是 ， 
一 些 路 由 器 将 多 个 防火 墙 规则 副本 保存 在 内 存 中 ， 路 由 器 必须 明确 指示 使 用 哪个 规则 。 最 
后 ， 另 一 个 常见 的 配置 问题 是 当 添 加 新 的 规则 时 ， 许 多 路 由 器 将 新 、 旧 防火 墙 规则 一 起 合并 
(merge) 了 。 如 果 操 作者 不 知道 这 种 行为 的 话 ， 这 将 导致 意 想不到 的 结果 。 

与 分 片 有 关 的 问题 是 如 何 构造 IP 分 片 。 当 一 个 P 数据 报 被 分 片 时 ( 见 第 10 章 )， 包含 
了 端口 号 的 传输 层 头 部 只 出 现在 第 一 个 分 片 中 ， 在 别 的 分 片 中 没有 。 这 是 分 层 和 封装 的 TCP 
/IP 协议 体系 结构 直接 导致 的 结果 。 不 幸 的 是 对 于 防火 墙 而 言 ， 如 果 收 到 的 分 片 不 是 一 个 的 
话 ， 它 所 提供 的 关于 与 该 数据 包 相 关联 的 传输 层 或 者 服务 信息 将 会 非常 少 。 唯 一 明显 的 解决 
方法 是 找到 第 一 个 分 片 (如 果 有 的 话 )， 这 显然 需要 一 个 有 状态 的 防火 墙 ， 为 此 可 能 会 遭 到 资 
源 耗 尽 攻击 。 即 使 是 状态 防火 墙 也 可 能 功 亏 一 筑 : 如 果 第 一 个 分 片 在 后 续 分 片 之 后 达到 ， 防 
火 墙 可 能 无 法 在 过 滤 操 作 之 前 执行 分 片 重组 。 在 某 些 情况 下 ， 防 火 墙 丢 弃 不 能 完全 识别 的 分 
片 ， 这 可 能 会 给 突然 使 用 了 大 数据 报 的 流量 造成 腑 烦 。 


7.8 Ba 


防火 墙 为 网 络 管理 员 提 供 了 一 种 机 制 ， 限 制 那些 可 能 对 终端 系统 有 害 的 信息 流动 。 主 
要 有 两 种 类 型 的 防火 墙 : 包 过 滤 防 火 墙 和 代理 防火 墙 。 包 过 滤 防 火 墙 可 进一步 划分 为 有 状态 
的 和 无 状态 的 ， 它 们 通常 作为 IP 路 由 器 。 有 状态 的 防火 墙 更 加 复杂 ， 能 够 支持 更 广泛 的 应 
用 层 协议 (在 一 个 数据 包 流 中 能 够 横 跨 多 个 数据 包 执行 更 为 复杂 的 登录 和 过 滤 操 作 )。 代 理 


” 防火 墙 通常 作为 一 种 形式 的 应 用 层 网 关 。 对 于 这 些 防 火 墙 ， 每 个 应 用 层 服务 在 防火 墙 上 必须 


有 自己 的 代理 处 理 程序 ， 这 些 处 理 程序 可 以 修改 通过 的 流量 ， 甚 至 是 其 中 的 数据 部 分 。 如 
SOCKS 这 类 协议 以 标准 化 的 方式 支持 代理 防火 墙 。 

NAT 是 一 种 机 制 ， 使 得 大 量 的 终端 主机 可 以 共享 一 个 或 多 个 全 局 路 由 的 IP 地 址 。NAT 
被 广泛 应 用 于 上 述 目 的 ， 但 也 可 以 和 防火 墙 规则 结合 形成 一 个 NAT/ 防火 墙 组 合 。 在 这 种 流 
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行 的 配置 中 ， 位 于 NAT“ 背 后 ”的 主机 允许 发 送 流量 到 全 球 互联 网 ， 但 是 仅 允 许 针对 传 出 流 
量 的 响应 流量 通过 NAT 返回 。 这 为 位 于 NAT“ 背 后 ”采用 端口 转发 处 理 的 服务 提出 了 一 个 
小 问题 ， 如 何 允 许 目 的 地 是 NAT 内 开启 了 服务 的 主机 的 传人 流量 通过 。 通 过 在 两 个 地 址 空 
间 之 间 转 换 地 址 ，NAT 也 被 提出 用 于 协助 从 IPv4 过 渡 到 IPv6。 此 外 ，NAT 也 正 被 考虑 用 于 
ISP 内 部 ， 以 进一步 减轻 IPv4 地 址 耗 尽 的 压力 。 如 果 这 个 大 规模 地 发 生 ， 普 通用 户 想 在 他 们 
的 家 庭 网 络 中 为 Internet 提供 服务 将 变 得 更 为 困难 。 

一 些 应 用 程序 使 用 了 一 套 启发 式 ， 用 于 确定 在 NAT 后 面 的 它们 对 外 所 采用 的 地 址 。 其 
中 许多 是 单方 面 操作 的 ， 没 有 NAT 的 直接 帮助 。 这 样 的 应 用 程序 被 认为 使 用 了 UNSAF 方 
法 ， 未 必 完 全 可 靠 。 一 组 文件 (H IETF 的 BEHAVE 工作 组 制定 ) 指定 了 针对 不 同 协议 的 
NAT 正当 行为 ,但 并 非 所 有 的 NAT 都 实现 这 些 规范 。 因 此 ， 可 能 需要 采用 NAT 穿越 技术 ， 
以 确保 连接 可 用 。 

NAT 穿越 涉及 确定 一 套 可 用 于 支持 通信 的 地 址 和 端口 号 集合 ， 即 使 必须 使 用 一 个 或 多 
个 NAT。STUN 是 确定 地 址 的 主力 协议 。TURN 是 一 个 特定 的 STUN 用 法 ， 通 过 一 个 通常 位 
于 互联 网 的 经 过 特殊 配置 的 TURN 服务 器 来 中 继 流量 。 通 过 使 用 一 整套 NAT 穿越 协议 ， 如 
ICE， 可 以 确定 使 用 了 哪些 地 址 或 者 中 继 。ICE 通过 使 用 本 地 信息 和 由 STUN 和 TURN 确定 
的 地 址 来 确定 一 对 通信 端点 之 间 所 有 可 能 的 地 址 。 然 后 为 后 续 的 通信 选择 “最 好 ”的 地 址 。 
ICE 机 制 已 受到 VoIP 服务 的 广泛 关注 ， 后 者 采用 SIP 协议 发 送信 令 。 

防火 墙 和 NAT 可 能 需要 配置 。 基 本 设置 足够 许多 家 庭 用 户 使 用 ， 但 是 为 了 允许 某 些 服 
务 能 够 正常 工作 ， 可 能 需要 修改 防火 墙 。 此 外 ， 如 果 在 NAT 后 面 的 用 户 希 望 提供 互联 网 服 
务 ， 就 需要 在 NAT 设备 上 配置 端口 转发 。 有 些 应 用 程序 通过 采用 UPnP 和 NAT-PMP 协议 与 
NAT 设备 直接 通信 来 支持 配置 。 当 被 支持 和 启用 时 ， 这 将 允许 应 用 程序 自动 配置 一 个 NAT 
端口 转发 和 数据 绑 定 ， 而 无 须 用 户 干预 。 对 于 家 庭 用 户 在 动态 配置 的 NAT ( 即 面向 Internet 
的 IP 地 址 可 能 会 变化 ) 后 运行 一 个 Web 服务 器 时 ， 如 动态 DNS ( 见 第 11 章 ) 之 类 的 附加 服 
务 ， 这 也 可 能 是 很 重要 的 。 
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TCP/IP Illustrated, Volume 1: The Protocols, Second Edition 


ICMPv4 和 ICMPv6: Internet 控制 报 文 协议 


8.1 引言 


IP 协议 本 身 并 没有 为 终端 系统 提供 直接 的 方法 来 发 现 那些 发 往 目的 地 址 失败 的 IP 数据 
包 。 此 外 ，IP 没有 提供 直接 的 方式 来 获取 诊断 信息 《〈 例 如， 哪些 路 由 器 在 沿途 中 被 使 用 了 或 
使 用 一 种 方法 来 估计 往返 时 间 )。 为 了 解决 这 些 不 足 之 处 ， 将 一 个 特殊 的 Internet 控制 报 文 协 
议 (Internet Control Message Protocol, ICMP) [RFC0792][RFC4443] 与 IP 结合 使 用 ， 以 便 提 
供与 IP 协议 层 配置 和 卫 数据 包 处 置 相 关 的 诊断 和 控制 信息 。ICMP 通常 被 认为 是 IP 层 的 一 
部 分 ， 它 需要 在 所 有 IP 实现 中 存在 。 它 使 用 IP 协议 进行 传输 。 因 此 ， 确 切 地 说 ， 它 既 不 是 
一 个 网 络 层 协议 ， 也 不 是 一 个 传输 层 协 议 ， 而 是 位 于 两 者 之 间 。 

ICMP 负责 传递 可 能 需要 注意 的 差错 和 控制 报 文 。ICMP 报 文通 常 是 由 P BAG. bE 
的 传输 协议 (例如 TCP 或 者 UDP)， 甚 至 某 些 情况 下 是 用 户 应 用 触发 执行 的 。 请 注意 ，ICMP 
并 不 为 IP 网 络 提供 可 靠 性 。 相 反 ， 它 表明 了 某 些 类 别 的 故障 和 配置 信息 。 最 常见 的 丢 包 (路 
由 器 缓冲 区 溢出 ) 并 不 会 触发 任何 的 ICMP 信息 。 由 其 他 协议 如 TCP 来 处 理 这 种 情况 。 

鉴于 ICMP 能 够 影响 重要 的 系统 功能 操作 和 获取 配置 信息 ， 黑 客 们 已 经 在 大 量 攻击 中 使 
用 ICMP 报 文 。 由 于 担心 这 种 攻击 ， 网 络 管理 员 经 常会 用 防火 墙 封 阻 ICMP 报 文 ， 特 别 是 在 
边界 路 由 器 上 。 如 果 ICMP 被 封锁 ， 大 量 的 诊断 程序 (例如 ping, traceroute) 将 无 法 正常 工 
作 [RFC4890]。 

当 讨论 ICMP 时 ， 我 们 用 术语 ICMP 指 一 般 的 ICMP，ICMPv4 和 ICMPv6 分 别 指 专门 
用 于 IPv4 和 IPv6 的 ICMP 版 本 。 正 如 我 们 将 看 到 的 ， 相 较 于 IPv4 中 的 ICMPv4，ICMPv6 
在 IPv6 中 发 挥 更 为 重要 的 作用 。 

[RFC0792] 包含 ICMPv4 官方 基本 规范 ，[RFC1122] 和 [RFC1812] 对 其 进行 了 细 化 和 澄 
清 。[RFC4443] 包含 了 ICMPv6 的 基本 规范 。[RFC4884] 提供 了 一 种 方法 来 为 某 些 ICMP H 
文 添加 扩展 对 象 。 这 项 功能 主要 用 于 保存 多 协议 标签 交换 ( Multiprotocol Label Switching, 
MPLS) 信息 [RFC4950]， 以 及 显示 在 转发 一 个 特定 的 数据 报时 使 用 到 的 接口 和 下 一 跳 路 由 
器 [RFC5837]。[RFC5508] 给 出 了 在 通过 NAT 时 ICMP 的 标准 行为 特征 (在 第 7 章 讨论 )。 
在 IPv6 中 ，ICMPv6 不 仅 用 于 一 些 简 单 的 错误 报告 和 信 令 ， 它 也 用 于 邻居 发 现 ( Neighbor 
Discovery, ND) [RFC4861]， 与 IPv4 中 的 ARP ( 见 第 4 章 ) 起 着 同样 的 作用 。 它 还 包括 用 
于 配置 主机 ( 见 第 6 章 ) 和 管理 组 播 地 址 ( 见 第 9 章 ) 的 路 由 器 发 现 Router Discovery) 功 
能 。 最 后 ， 它 也 被 用 来 帮助 管理 移动 IPv6 中 的 切换 。 


8.1.1 在 IPv4 和 1Pv6 中 的 封装 


ICMP 报 文 是 在 IP 数据 报 内 被 封装 传输 的 ， 如 图 8-1 所 示 。 

在 IPv4 中 ， 协 议 (Protocol) 字段 值 为 1 表示 该 报 文 携带 了 ICMPv4。 在 IPv6 中 ， 
ICMPv6 报 文 可 能 开始 于 0 个 或 者 多 个 扩展 头 部 之 后 。 位 于 ICMPv6 头 部 之 前 的 最 后 一 个 扩 
展 头 部 包含 了 一 个 值 为 58 的 下 一 个 头 部 (Next Header) 字段 。ICMP 报 文 可 能 会 像 其 他 IP 
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数据 报 那 样 被 分 片 (参见 第 10 章 )， 尽 管 这 并 不 常见 。 


IPv4 协议 字段 = 1 





i ICMP 
IPv4 头 部 ICMP 数据 IPv4 
EE 


(20~60 字 节 )(4 字 节 ) 
IPv6 下 一 个 头 部 字段 = 58 


ls IPv6 扩展 头 部 | ICMP CMP IPv6 


(40 字 节 ) (可 变 ) (4 字 节 ) 
图 8-1 ICMP 报 文 封装 在 IPv4 和 1IPv6 内 部 。ICMP 头 部 包含 了 涵盖 整个 ICMP 数据 段 的 校 验 和 。 在 
ICMPv6 中 ， 这 个 校 验 和 也 涵盖 了 IPv6 头 部 中 的 源 (Source) 和 目的 IPv6 地 址 (Destination 
IPv6 Address) 字段 、 长 度 (Length) 字段 和 下 一 个 头 部 (Next Header) 字段 





图 8-2 显示 了 ICMPv4 和 ICMPv6 报 文 的 格式 。 开 头 的 4 个 字 节 在 所 有 的 报 文中 都 是 一 
样 的， 但 是 其 余部 分 在 不 同 的 报 文中 不 同 。 


0 15 16 31 


(8 fiz) (8 fiz ) (16 fiz ) 


依赖 于 类 型 和 代码 的 内 容 ( 可 变 的 ) 





图 8-2 所 有 的 ICMP 报 文 都 以 8 位 的 类 型 (Type) 和 代码 (Code) 字段 开始 ， 其 后 的 16 位 校 验 和 
(Checksum) 字段 涵盖 了 整个 报 文 。ICMPv4 和 ICMPvw6 中 的 类 型 和 代码 字段 值 是 不 同 的 


在 ICMPv4 中 ， 为 类 型 字段 保留 了 42 个 不 同 的 值 [CMPTYPES]， 用 于 确定 特定 的 报 
文 。 但是， 大 概 只 有 8 个 是 经 常 使 用 的 。 在 整个 章节 中 ， 我 们 将 给 出 每 个 常用 报 文 的 确切 格 
式 。 许 多 类 型 的 ICMP 报 文 也 使 用 不 同 的 代码 字段 值 进一步 指定 报 文 的 含义 。 校 验 和 字段 覆 
盖 整 个 ICMPv4 报 文 ; 在 ICMPv6 中 ， 它 将 涵盖 一 个 来 自 IPv6 头 部 的 伪 头 部 (pseudo-header) 
(IL [RFC2460] 的 8.1 节 )。 用 于 计算 校 验 和 的 算法 和 第 $ 章 中 用 于 计算 卫 头 校 验 和 的 算法 
相同 。 请 注意 ， 这 是 我 们 第 一 个 端 到 端 (end-to-end) 的 校 验 和 例子 。 该 校 验 和 从 发 送 方 的 
ICMP 报 文 被 一 路 携带 到 最 终 的 接收 方 。 相 比 之 下 , 第 5 章 中 讨论 的 IPv4 头 校 验 和 在 路 由 器 
的 每 一 跳 中 都 会 改变 。 如 果 一 个 ICMP 实现 收 到 一 个 校 验 和 错误 的 ICMP 报 文 ， 该 报 文 将 被 
FF; WA ICMP 报 文 可 以 表示 收 到 的 ICMP 报 文中 的 校 验 和 是 错误 的 。 回 想 一 下 ，IP 层 不 
能 对 数据 报 的 有 效 载荷 部 分 进行 保护 。 如 果 ICMP 不 包括 校 验 和 ，ICMP 报 文 的 内 容 就 可 能 
不 正确 ， 进 而 导致 错误 的 系统 行为 。 


8.2 ICMP 报 文 


我 们 先 对 ICMP 报 文 做 一 般 人 介绍， 然后 对 其 中 最 为 常用 的 部 分 做 详细 介绍 。ICMP 报 文 
可 分 为 两 大 类 : AK IP 数据 报 传递 的 ICMP 报 文 ( 称 为 差错 报 文 (error message))， 以 及 有 关 
信息 采集 和 配置 的 ICMP 报 文 ( 称 为 查询 (query) 或 者 信息 类 报 文 (informational message) )。 
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8.2.1 ICMPv4 报 文 


对 于 ICMPv4， 信 息 类 报 文 包括 回 显 请 求 和 回 显 应 答 (分 别 为 类 型 8 和 0 )， 以 及 路 由 器 
通告 和 路 由 器 请 求 (分 别 为 类 型 9 和 10， 统 一 被 称 为 路 由 器 发 现 )。 最 常见 的 差错 报 文 类 型 
包括 目的 不 可 达 (类 型 3 )、 重 定向 (类 型 5 )、 超 时 (类 型 11 ) 和 参数 问题 (类 型 12 )。 表 8-1 
列 出 了 为 标准 ICMPv4 定义 的 报 文 类 型 。 


表 8-1 由 类 型 字段 决定 的 标准 ICMPv4 报 文 类 型 


类 型 用 途 / 注释 

0) | imac | [RFC0792] | tl (ping) 应 答 ,返回 数据 

30) 不 可 达 的 主机 /协议 

4 表示 拥塞 ( 弃 用 ) 

50) 表示 应 该 被 使 用 的 可 选 路 由 器 

8) | me | [RFC0792] | tN (ping) 请 求 ( 数 据 可 选 ) 

9 | 路 由 器 通告 “| [RFC1256] | 1 | 指示 路 由 器 地 址 /优先 级 

10 | 路 由 器 请 求 | [RFC1256] | 工 | 请 求 路 由 器 通告 

LLC) 资源 耗 尽 ( 例 如 IPv4 TTL) 

12 OH) 有 问题 的 数据 包 或 者 头 部 

iè: 星 号 (*) 标记 的 类 型 是 最 常见 的 。 那 些 标 有 加 号 (+) 的 可 能 包含 [RFC4884] 扩展 对 象 。 在 第 4 列 中 ， 
E 表 示 差 错 报 文 ，I 表 示 查 询 / 信息 类 报 文 。 


对 于 常用 的 报 文 ( 表 8-1 中 类 型 号 旁 标 有 星 号 的 )， 将 使 用 表 8-2 所 示 的 代码 号 。 一 些 报 
文 能 够 携带 扩展 信息 [RFC4884] ( 表 8-1 中 有 加 号 标记 的 )。 
IANA[ICMPTYPES] 维护 了 一 个 报 文 类 型 的 正式 列表 。 这 些 报 文 类 型 有 许多 是 1981 年 
在 原先 的 ICMPv4 规范 [RFC0792] 中 定义 的 ， 这 是 在 具有 重要 使 用 经 验 之 前 完成 的 。 额 外 的 
经 验 和 其 他 协议 (如 DHCP) 的 发 展 已 导致 停止 使 用 许多 已 定义 的 报 文 。 当 IPv6 (ICMPv6 ) 
被 设计 时 ， 这 一 事实 已 被 接受 ， 为 此 某 种 程度 上 为 ICMPv6 定义 了 合理 的 类 型 和 代码 。 


表 8-2 通用 的 ICMPv4 报 文 类 型 所 使 用 的 代码 号 。 尽 管 所 有 这 些 报 文 类 型 
是 比较 通用 的 ， 但 只 使 用 了 少数 代码 号 


类 如 用 途 | 注释 
3 | o | 网 咯 不 可 达 | (完全 ) 没有 路 由 到 目的 地 
s30 | 1 | 主机 不 可 达 | 已 知 但 不 可 达 的 主机 

3 未 知 的 《传输 ) 协议 

3 (9 未 知 的 /不 用 的 (传输 ) 端口 


pn 需要 设置 分 片 但 被 DF 位 禁止 了 ， 被 PMTUD 
位 (PTB 报 文 ) [RFC1191] 采用 

中 则 跳 不 可 达 

| 6 | 未知 的 目的 网 络 | 弃 用 [RFC1812] 

目的 不 存在 

| e |n eco) 

| 9 | 管理 上 禁止 和 目的 网 络 通信 | 弃 用 [RFC1812] 

| 10 | 管理 上 禁止 和 目的 主机 通信 | 弃 用 [RFC1812] 

o on | 目的 网 络 不 可 达 的 服务 类 型 | 不 可 用 的 服务 类 型 网络) 


目的 主机 不 可 达 的 服务 类 型 不 可 用 的 服务 类 型 (主机) 


DD 
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管理 禁止 通信 被 过 滤 策略 禁止 的 通信 


WOlLnAl Mimi | 
~ 
* 
— 


8.2.2 


u | ee | 
| Re ERE 
arena 
a : 


src/dest/port 不 准许 的 优先 级 

在 最 小 ToS 之 下 [RFC1812] 

指示 一 个 可 选 的 路 由 器 

指示 一 个 可 选 的 路 由 器 (主机) 
指示 一 个 可 选 的 路 由 器 (ToS/ 网 络 ) 
指示 一 个 可 选 的 路 由 器 (ToS/ EHL) 


路 由 器 的 地 址 和 配置 信息 
和 移动 IP[RFC5944] 一 起 使 用 时 ， 路 由 器 不 会 


= 常见 流量 


| o | 在 传输 期 间 生存 时 间 超时 跳 数 限制 /TTL 超时 


各 在 重组 计时 器 超时 之 前 ， 并 不 是 所 有 的 数据 报 


| ”0 | 指针 指示 差错 字 节 偏 移 量 (指针 ) 指示 第 一 个 问题 字段 
| 1 | 缺少 一 个 必需 的 选项 弃 用 /已 成 为 历史 
错误 的 长 度 数据 包 有 无 效 的 总 长 度 (Total Length) 字段 


ICMPv6 报 文 


K 8-3 给 出 了 为 ICMPv6 定义 的 报 文 类 型 。 注 意 ICMPv6 负责 的 不 仅 是 差错 和 信息 类 报 
文 ， 也 负责 大 量 IPv6 路 由 器 和 主机 的 配置 。 


表 8-3 在 ICMPv6 中 ， 差 错 报 文 的 报 文 类 型 从 0 到 127。 信 息 类 报 文 的 报 文 类 型 从 128 到 255。 加 号 
(+) 表示 该 报 文 可 能 包含 一 个 扩展 结构 。 保 留 的、 未 分 配 的 、 实 验 性 的 和 过 时 的 值 并 未 显示 


类 型 描述 
1) 不 可 达 的 主机 、 端 口 、 协 议 
2 需要 分 上 
TA BOTRA EAEN 
4 畸形 数据 包 或 者 头 部 
100,101 为 实验 保留 
127 Jy RCT 
128 ping 请 求 ， 可 能 包含 数 所 
129 ping AE, WERE 
130 查询 组 播 订阅 者 (v1) 
I 组 播 订阅 者 报告 CD) 
132 组 播 取消 订阅 报 文 (vi ) 
135 IPv6 邻居 发 现 (ER) 
136 IPv6 邻居 发 现 GEE) 
137 使 用 另 一 个 下 一 跳 路 由 器 
a 反 向 邻居 发 现 请 求 : 请 求 给 定 的 链 路 层 地 址 
的 IPv6 地 址 
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x 9 iii 
n 反 向 邻居 发 现 应 答 : 报告 给 定 的 链 路 层 地 址 
i] s AOE. (2) 
a P 包含 MIPv6 HA 地 址 ， 在 本 地 网 络 中 由 合格 
的 HA 发 送 
6 SATE 
147 提供 从 HA 到 移动 节点 的 前 级 
148 一 条 证 书 路 径 的 保护 邻居 发 现 (SEND) WR 
149 响应 一 个 证 书 路 径 请 求 的 SEND 
151 提供 组 播 路 由 器 的 地 址 
152 请 求 组 播 路 由 器 的 地 址 
5 A ETE 
4 MIPv6 Hi BAL 
200,201 为 实验 保留 
255 为 更 多 的 信息 类 报 文保 留 


在 该 列表 中 ， 明 显 看 出 第 一 个 报 文 类 型 集合 和 第 二 个 报 文 类 型 集合 之 间 存 在 分 离 ( 即 
128 以 下 的 报 文 类 型 和 128 及 以 上 的 )。 在 ICMPv6 中 ， 与 ICMPv4 一 样 ， 报 文 也 被 分 组 为 
信息 类 的 和 差错 类 的 。 然 而 ， 所 有 ICMPv6 的 差错 报 文 的 类 型 (Type) 字段 的 高 位 比特 为 0。 
因此 ，ICMPv6 类 型 从 0 到 127 的 都 是 差错 报 文 ， 类 型 从 128 到 255 的 都 是 信息 类 报 文 。 许 
多 信息 类 报 文 都 是 请 求 / 应 答对 。 

将 ICMPv6 的 标准 报 文 和 比较 常见 的 ICMPv4 报 文 进行 比较 ,我 们 可 以 得 到 结论 : 设计 
ICMPv6 时 的 一 些 努力 是 为 了 从 原始 的 规范 中 去 除 未 使 用 的 报 文 ， 同 时 保留 有 用 的 报 文 。 遵 
循 这 个 方法 ，ICMPv6 也 使 用 代码 (Code) 字段 ， 主 要 是 为 了 完善 某 些 差错 报 文 的 含义 。 在 
表 8-4 中 ， 我 们 列 出 了 这 些 标准 的 ICMPv6 报 文 类 型 ( 即 目 的 不 可 达 、 超 时 、 参 数 问 题 )， 除 

0 之 外 还 定义 了 许多 代码 值 。 


表 8-4 1ICMPv6 标准 报 文 类 型 除 0 之 外 被 赋予 的 代码 值 


类 型 | 代码 | 4 * | 用 途 / 注释 
1 | 0 | 没有 到 目的 地 的 路 由 | 路 由 不 存在 
| | CY 条 上 
! 日 的 范围 超出 源 地 址 的 范围 
! 当代 码 0 ~ 2 并 不 合适 时 使 用 
1 没有 传输 层 实体 在 端口 监听 
l 违反 进 /出 策略 
1 | 6 | 拒绝 到 目的 地 的 路 由 | 。 特定 的 拒绝 到 目的 地 的 路 由 
3 | o | 在 传输 中 超过 了 跳 数 限制 ”| 跳 数 限制 (Hop Limit) 字段 递 碱 为 0 
3 | 1 | mammam | 。 在 有 限 的 时 间 内 无 法 重组 
4 | ee Ma 
4 | 1 | 无 法 识别 的 下 一 个 头 部 | 未 知 的 下 一 个 头 部 (Next Header) 字段 值 
4 未 知 的“ 逐 跳 ”或 者 “目的 地 ”选项 
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除了 定义 ICMP v6 基本 功能 的 类 型 和 代码 字段 外 ， 还 支持 了 大 量 的 标准 选项 ， 其 中 一 
些 是 必需 的 。 这 将 ICMPv6 与 ICMPv4 中 区 别 开 来 (ICMPv4 没有 选项 )。 当 前 ， 标 准 的 
ICMPv6 选项 只 为 ICMPv6 ND 报 文 (类 型 为 135 和 136 ) 定义 使 用 , 使 用 了 [RFC4861] Pit 
论 的 选项 格式 (Option Format) 字段 。 在 8.5 节 详 细 探 讨 ND 时 我 们 会 讨论 这 些 选 项 。 


8.2.3 ”处 理 ICMP 报 文 


在 ICMP 中 ， 对 传人 报 文 的 处 理 随 着 系统 的 不 同 而 不 同 。 一 般 说 来 ， 传 人 的 信息 类 请 求 
将 被 操作 系统 自动 处 理 ， 而 差错 类 报 文 传递 给 用 户 进 程 或 传输 层 协议 ， 如 TCP[RFC5461]。 
进程 可 以 选择 对 它们 采取 行动 或 忽略 它们 。 这 个 一 般 规则 的 例外 情况 包括 重 定向 报 文 和 目的 
不 可 达 一 一 需要 分 片 报 文 。 前 者 将 导致 主机 路 由 表 中 的 自动 更 新 ， 而 后 者 用 于 路 径 MTU 发 
I (PMTUD) 机 制 ， 这 一 般 是 由 传输 层 协议 来 实现 的 ， 如 TCP。 在 ICMPv6 中 对 报 文 的 处 理 
在 一 定 程 度 上 将 更 为 严格 。 处 理 传人 的 ICMPv6 报 文 [RFC4443] 时 将 应 用 以 下 规则 : 

1. 未 知 的 ICMPv6 差错 报 文 必须 传递 给 上 层 产 生 差错 报 文 的 进程 (如 果 可 能 的 话 )。 

2. 未 知 的 ICMPv6 信息 类 报 文 被 丢弃 。 

3. ICMPv6 差错 报 文 将 会 尽 可 能 多 地 包含 导致 差 错 的 原始 (“违规 ”) IPv6 报 文 ， 当 然 最 
终 的 差错 报 文大 小 不 能 超过 最 小 的 IPv6 MTU (1280 字 节 )。 

4. 在 处 理 ICMPv6 差错 报 文 时 ， 需 要 提取 原始 (original) 或 者 “违规 ”数据 包 (包含 在 
ICMPv6 差错 报 文体 中 ) 中 的 上 层 协议 类 型 ， 用 于 选择 适当 的 上 层 进程 。 如 果 这 是 不 可 能 的 ， 
在 任何 IPv6 层 处 理 完 后 将 无 声 地 丢弃 差错 报 文 。 

5. 存在 处 理 差 错 的 特殊 规则 ( 见 8.3 节 )。 

6. IPv6 节点 必须 限制 它 发 送 ICMPv6 差错 报 文 的 速率 。 有 多 种 方法 可 以 用 来 实现 限 速 功 
能 ,包括 8.3 节 中 提 到 的 令 牌 桶 方法 。 


8.3 ICMP 差错 报 文 


上 一 节 提 到 的 ICMP 差错 报 文 和 信息 类 报 文 之 间 的 区 别 非常 重要 ， 因 为 在 生成 ICMPv4 
差错 报 文 [RFC1812] 和 ICMPv6 差错 报 文 [RFC4443] 时 做 了 某 些 限制 ， 但 这 不 适用 于 查询 。 
特别 是 ，ICMP 差错 报 文 不 会 对 以 下 报 文 进行 响应 : 另 一 个 ICMP 差错 报 文 ， 头 部 损坏 的 数 
据 报 (例如 ， 校 验 和 错误 )，IP 层 的 广播 /组 播 数据 报 ， 封 装 在 链 路 层 广播 或 者 组 播 帧 中 的 数 
据 报 ， 无 效 或 者 网 络 为 零 的 源 地 址 的 数据 报 ， 或 除 第 一 个 之 外 的 其 他 分 片 。 限 制 生 成 ICMP 
差错 报 文 的 原因 是 限制 生成 所 谓 的 广播 风暴 ， 在 这 种 情况 下 生成 少数 的 报 文 就 会 造成 不 想 要 
的 流量 喷 流 (例如 ， 无 限 地 为 响应 差错 报 文 而 生成 差错 报 文 )。 这 些 规则 可 以 概括 如 下 : 

以 下 情况 下 不 会 响应 产生 ICMPv4 差错 报 文 : 

e ICMPv4 差错 报 文 (但 是 ， 响 应 ICMPv4 查询 报 文 可 能 会 产生 ICMPv4 差错 报 文 )。 

o 目的 地 址 是 IPv4 广播 地 址 或 IPv4 组 播 地 址 〈 以 前 称 为 D 类 地 址 ) 的 数据 报 。 

o 作为 链 路 层 广播 的 数据 报 。 

e 不 是 第 一 个 分 片 的 其 他 分 片 。 

© 源 地 址 不 是 单个 主机 的 数据 报 。 这 就 是 说 ， 源 地 址 不 能 为 零 地 址 、 环 回 地 址 、 广 播 地 

址 或 组 播 地 址 。 
ICMPv6 也 类 似 。 在 下 面 各 种 情况 不 会 响应 产生 ICMPv6 差错 报 文 : 
e ICMPv6 差错 报 文 。 
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e ICMPv6 重 定向 报 文 。 
e 目的 地 址 是 IPv6 组 播 地 址 的 数据 包 ， 以 下 情况 除外 : 数据 包 太 大 (PTB) WRX; 参 
数 问题 报 文 (代码 2 )。 

o 作为 链 路 层 组 播 (以 及 前 面 提 到 的 例外 情况 ) 的 数据 包 。 

o 作为 链 路 层 广播 (以 及 前 面 提 到 的 例外 情况 ) 的 数据 包 。 

o 源 地 址 不 是 唯一 识别 的 单个 节点 的 数据 包 。 这 意味 着 ， 源 地 址 不 能 是 未 指定 的 地 址 、 

IPv6 组 播 地 址 ， 或 者 任意 为 发 送 者 所 知 的 选 播 地 址 。 

除了 控制 产生 ICMP 报 文 条 件 的 规则 ， 还 有 限制 从 单一 发 送 者 发 出 的 ICMP 总 体 流量 
水 平 的 规则 。 在 [RFC4443]， 一 种 推荐 的 限制 ICMP 报 文 速率 的 方法 是 使 用 令 牌 桶 (token 
bucket)。 采 用 令 牌 桶 后 ， 每 个 “ 桶 ”保存 了 最 大 数量 (B) 的 “ 令 牌 "， 每 个 “ 令 牌 ”人 允许 一 
定数 量 的 报 文 被 发 送 。 桶 定期 被 新 的 令 牌 (速率 为 N) 填充 ， 并 且 每 发 送 一 个 报 文 便 减 1。 因 
此 , 令 牌 桶 (通常 也 称 为 令 牌 桶 过 滤器 (token bucket filter)) 可 以 由 参数 (B, N) 刻画 。 对 
于 小 型 或 中 型 设备 ，[RFC4443] 提供 了 一 个 使 用 参数 ( 10，10 ) 的 令 牌 桶 例子 。 令 牌 桶 是 在 
协议 实现 中 为 限制 带宽 利用 率 所 采取 的 一 个 通用 机 制 ， 在 许多 情况 下 B N 的 单位 是 字 节 ， 
而 不 是 报 文 个 数 。 

当 发 送 一 个 ICMP 差错 报 文 ， 它 包含 了 一 个 完整 的 源 自 “违规 ”或 者 “原始 ”数据 报 
的 IP AREE ( 即 生成 导致 错误 的 数据 报 的 耳 头 部 ,包括 任何 IP 选项 )， 再 加 上 原始 数据 
FRAY IP 有 效 载荷 区 中 的 任何 其 他 数据 ， 同 时 要 确保 生成 的 IP/ICMP 的 数据 报 的 大 小 不 会 超 
过 一 个 特定 的 值 。 对 于 IPv4， 这 个 值 是 576 字 节 ， 对 于 IPv6 就 是 IPv6 的 最 小 MTU， 至 少 
是 1280 字 节 。 包 含 原 始 卫 数据 报 的 有 效 载 荷 使 接收 的 ICMP 模块 能 够 根据 IP 头 部 中 的 协 
议 (Protocol) 或 者 下 一 个 头 部 (Next Header) 字段 将 该 报 文 和 特定 的 协议 (例如 ，TCP 或 
者 UDP) 及 应 用 进程 相关 联 (包含 在 IP 数据 报 有 效 载荷 区 中 前 8 个 字 节 所 包含 的 TCP 或 者 
UDP 头 部 中 的 TCP 或 者 UDP 端口 号 )。 

在 [RFC1812] 出 版 之 前 ，ICMP 规范 仅 要 求 包含 违规 IP 数据 报 的 前 8 个 字 节 (因为 这 
足以 确定 UDP Al TCP 端口 号 ,参见 第 10 章 和 第 12 章 )， 但 随 着 越 来 越 多 的 复杂 协议 的 普 
及 (如 IP 被 封装 在 IP 中 )， 现 在 需要 更 多 的 信息 来 有 效 诊断 问题 。 此 外 ， 一 些 差错 报 文 可 能 
包括 扩展 〈extension)。 我 们 首先 简要 地 讨论 扩展 方法 ， 然 后 再 讨论 每 个 重要 的 ICMP 差错 
报 文 。 


8.3.1 扩展 的 ICMP 和 多 部 报 文 


[RFC4884] 通过 在 ICMP 报 文 的 尾部 追加 扩展 数据 结构 ( extension data structure) 的 方 
法 来 指定 一 个 扩展 的 方法 。 扩 展 结构 包括 一 个 扩展 头 部 和 可 能 包含 可 变数 量 数据 的 扩展 对 
象 ， 如 图 8-3 所 示 。 

ICMPv4 头 部 的 第 6 个 字 节 和 ICMPv6 头 部 的 第 5 个 字 节 被 改 为 用 于 表示 长 度 (Length) 
字段 (这 些 字 节 此 前 已 预 留 0 值 )。 在 ICMPv4 P, CERA 32 位 字 为 单位 的 违规 数据 报 的 
大 小 。 在 ICMPv6 中 ， 它 是 以 64 位 为 单位 的 。 为 了 使 32 位 和 64 位 对 齐 ， 这 些 数据 报 中 有 
一 部 分 将 分 别 用 零 来 填充 。 当 使 用 扩展 时 ， 包 含 原 始 数据 报 的 ICMP 有 效 负载 区 至 少 为 128 
字 节 长 。 

扩展 结构 可 用 于 ICMPv4 目的 不 可 达 、 超 时 、 参 数 问 题 报 文 ， 以 及 ICMPv6 目的 不 可 达 
和 超时 报 文 。 我 们 将 在 下 面 的 小 节 中 详细 查看 它们 。 
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ICMP 有 效 载荷 ( 至 少 为 128 字 节 ) 
(例如 原始 数据 报 的 第 一 部 分 ) 


传统 的 ICMP 报 文 


ICMP 扩展 头 部 
[RFC4884] 
多 个 对 象 
A 对 象 数据 | [RFC4884] 


pease 其 他 对 象 
i i 
图 8-3 扩展 的 ICMPv4 Al ICMPv6 报 文 ， 包括 一 个 32 位 的 扩展 头 部 和 零 个 或 多 个 相关 联 的 对 象 。 每 
个 对 象 包含 一 个 固定 大 小 的 头 和 一 个 可 变 长 度 的 数据 区 。 为 了 兼容 性 ，ICMP 主要 有 效 载荷 区 
至 少 有 128 个 字 节 


8.3.2 目的 不 可 达 ( ICMPv4 类 型 3，ICMPv6 类 型 1 ) 和 数据 包 太 大 ( ICMPv6 类 
型 2) 


现在 我 们 更 为 详细 地 查看 一 种 比较 常见 的 ICMP 报 文 类 型 ， 即 目的 不 可 达 。 这 种 类 型 
的 报 文 用 来 表示 数据 报 无 法 送 达 目 的 地 ， 可 能 是 因为 传输 过 程 中 出 了 问题 或 接收 者 缺乏 兴趣 
接收 它 。 虽 然 ICMPv4 为 此 报 文 定义 了 16 个 不 同 的 代码 ， 但 其 中 只 有 4 个 是 最 常用 的 。 这 
包括 主机 不 可 达 (代码 1 )、 端 口 不 可 达 (代码 3 )、 需 要 分 片 /指定 不 用 分 片 (代码 4)、 管 
理 禁止 通信 (代码 13 )。 在 ICMPv6 中 ， 目 的 不 可 达 报 文 类 型 值 是 1， 并 有 7 个 不 同 的 代码 
值 。 与 IPv4 相 比 ，ICMPv6 中 需要 分 片 报 文 已 经 被 一 个 完全 不 同 的 类 型 取代 (类 型 2 )， 但 是 
其 用 法 和 对 应 的 ICMP 目的 不 可 达 非 常 相似 ， 所 以 我 们 在 这 里 讨论 。 在 ICMPv6 中 ， 这 就 是 
所 谓 的 数据 包 太 大 (PTB) 报 文 。 从 这 里 开始 ， 我 们 将 使 用 简单 的 ICMPv6 PTB 术语 来 表示 
ICMPv4 (类 型 3， 代码 4 ) 报 文 或 者 ICMPv6 (类 型 2， 代码 0 ) RX- 

为 ICMPv4 和 ICMPv6 指定 的 目的 不 可 达 报 文 格式 如 图 8-4 所 示 。 目 的 不 可 达 报 文 ， 对 
ICMPv4 而 言 其 类 型 字段 为 3， 对 ICMPv6 而 言 其 类 型 字段 为 1。 代码 字段 表示 了 不 可 达 的 特 
定 项 目 或 者 原因 。 现 在 我 们 来 看 看 每 一 个 报 文 的 细节 。 


8.3.2.1 ICMPv4 主机 不 可 达 (代码 1 ) 和 ICMPv6 地 址 不 可 达 (代码 3 ) 
这 种 形式 的 目的 不 可 达 报 文 是 由 路 由 器 或 者 主机 产生 的 ， 出 现在 当 它 被 要 求 使 用 直接 交 
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付 方 法 发 送 一 个 IP 数据 报到 一 个 主机 ( 见 第 5 章 ), 但 由 于 某 些 原 因 无 法 到 达 目 的 地 时 。 例 
如 当 最 后 一 跳 路 由 器 试图 发 送 一 个 ARP 请 求 到 已 经 不 在 或 者 关闭 的 主机 时 ， 这 种 情况 就 可 
能 会 出 现 。 这 种 情况 在 第 4 章 中 描述 ARP 时 探讨 过 。 对 于 ICMPv6， 它 使 用 一 个 有 点 不 同 的 
机 制 来 检测 无 响应 的 主机 ， 这 个 报 文 可 能 是 因为 ND 过 程 失 败 而 产生 的 ( 见 8.5 节 )。 


































扩展 结构 ( 如 果 存 在 的 话 ) 扩展 结构 ( 如 果 存 在 的 话 ) 


0 1516 31 0 15 16 31 
代码 校 验 和 和 ( 16 位 ) | 类 型 (1) 
y | 长 度 ( 以 32 其 他 长 度 (以 64 位 
BERN azaan] rR) | | _ 字 为 单位 ) 
1 
IPv4 头 部 + 原始 数据 报 的 初始 字 节 pve SL + AS 


1 1 
1 | 
1 1 
| | 
i 1 
| 一 | 
i 1 
1 1 
1 I 
1 1 
1 1 
| | 
| 
1 i 
1 I 


一 一 -一 -二 一 -一 -一 一 




















图 8-4 ICMPv4 ( 左 ) 和 ICMPv6 (Æ) 的 ICMP 目的 不 可 达 报 文 。 长 度 字段 出 现在 扩展 的 ICMP 实现 
中 并 符合 [RFC4884] 规范 ， 它 给 出 了 保存 原始 数据 报 的 字数 大 小 ， 分 别 以 4 个 字 节 《〈IPv4 ) 或 
8 个 字 节 (IPv6 ) 为 单位 。 可 能 还 会 包含 一 个 可 选 的 扩展 结构 。 当 代码 值 为 4 时 ，ICMP 中 标 
记 为 “其 他 ”(various) 的 字段 用 于 记录 下 一 跳 的 MTU， 这 将 被 PMTUD 使 用 。 为 了 这 个 目的 ， 
ICMPv6 使 用 了 不 同 的 ICMPv6 PTB 报 文 (ICMPv6 类 型 2 ) 


8.3.2.2 ICMPv6 目的 无 路 由 (代码 0 ) 

此 报 文 对 ICMPv4 中 的 主机 不 可 达 报 文 进行 了 细 分 ， 将 直接 交付 失败 导致 的 和 没有 路 由 
导致 的 区 分 开 来 。 此 报 文 出 现在 当 到 达 的 数据 报 不 必 采 用 直接 交付 的 方式 来 转发 ， 但 却 没有 
路 由 条 目 来 指定 下 一 跳 该 用 哪个 路 由 器 时 的 情况 下 。 正 如 我 们 已 经 看 到 的 ， 如 果 IP 路 由 器 想 
要 成 功 转发 的 话 ， 它 们 必须 为 收 到 的 任何 数据 包 的 目的 地 址 包含 一 个 有 效 的 下 一 跳 转发 项 。 


8.3.2.3 ICMPv4 管理 禁止 通信 (代码 3 ) 和 ICMPv6 目的 管理 禁止 通信 (代码 1 ) 

在 ICMPv4 和 ICMPv6 中 ， 这 些 目的 不 可 达 报 文 能 够 表明 一 个 管理 禁令 (administrative 
prohibition) 正 阻止 到 目的 地 的 成 功 通信 。 这 通常 是 由 一 个 防火 墙 ( 见 第 7 章 ) 故意 丢弃 流量 
导致 的 ， 而 这 些 流量 未 能 遵守 由 路 由 器 发 送 的 ICMP 差错 报 文 所 强加 的 部 分 操作 策略 。 在 许 
多 情况 下 ， 不 会 广 而 告 之 存在 一 个 特殊 的 丢弃 流量 的 策略 ， 所 以 一 般 可 以 禁止 生成 这 些 报 文 ， 
要 么 默默 丢弃 传人 的 数据 包 ， 要 么 产生 一 些 其 他 的 ICMP 差错 报 文 来 代替 。 


8.3.2.4 ICMPv4 端口 不 可 达 (代码 3 ) 和 ICMPv6 端口 不 可 达 (代码 4) 

当 传人 的 数据 报 的 目的 应 用 程序 还 没准 备 好 接收 它 时 ， 就 会 生成 一 个 端口 不 可 达 报 文 。 
这 种 情况 最 常 出 现在 和 UDP 一 起 使 用 ( 见 第 10 章 )， 当 一 个 报 文 被 发 往 的 端口 号 并 未 被 任何 
服务 器 进程 使 用 时 。 如 果 UDP 接收 到 一 个 数据 报 且 对 应 的 目的 端口 号 并 未 被 任何 进程 使 用 ， 
UDP 便 会 回应 一 个 ICMP 端口 不 可 达 报 文 。 

ICMPv4 端口 不 可 达 报 文 可 以 通过 在 Windows 或 Linux 客户 端 中 使 用 简单 文件 传输 协 
议 (Trivial File Transfer Protocol, TFTP) [RFC1350]， 并 采用 tcpdump 来 查看 数据 包 交 换 的 
方法 来 加 以 说 明 。TFTP 服务 使 用 的 知名 UDP 端口 是 69。 然 而 ， 在 许多 系统 上 有 TFTP 客 
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户 端 ,但 却 很 少 运行 TFTP 服务 器 。 因 此 ， 当 我 们 试图 访问 一 个 不 存在 的 服务 器 时 很 容易 看 
个 究竟 。 在 清单 8-1 所 示 的 例子 中 ， 我 们 在 Windows 主机 上 执行 称 为 tftp 的 TFTP 客户 端 ， 
并 试图 获取 Linux 主机 上 的 一 个 文件 。tcpdump 使 用 -s 选项 表示 每 个 数据 包 捕 获 1500 字 
节 ; -i eth] 选项 表示 tcpdump 将 监视 ethl 以 太 网 接口 上 的 流量 ; -vv 选项 表示 输出 中 将 包含 
更 多 的 描述 性 信息 ; 表达 式 icmp or port tftp 表示 输出 中 要 包含 匹配 TFTP 端口 号 ( 69 ) 或 者 
ICMPv4 协议 的 流量 。 


清单 8-1 ”展示 应 用 程序 超时 和 ICMP 限 速 的 TFTP 客户 端 


C:\> tftp 10.0.0.1 get /foo try to fetch file oo from 10.0.0.1 
Timeout occurred timeout occurred after about 9 seconds 


Linux# tcpdump -s 1500 -i ethl -vv icmp or port tftp 


1 09:45:48.974812 IP (tos 0x0, ttl 128, id 9914, offset 0, 
flags [none], length: 44) 


10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


2 09:45:48.974812 IP (tos 0xc0, ttl 255, id 43734, offset 0, flags 
[none], length: 72) 
10.0.0.1 > 10.0.0.54: icmp 52: 
10.0.0.1 udp port tftp unreachable 
for IP (tos 0x0, ttl 128, id 9914, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


3 09:45:49.014812 IP (tos 0x0, ttl 128, id 9915, offset 0, 
flags [none], length: 44) 


10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


4 09:45:49.014812 IP (tos 0xc0, ttl 255, id 43735, offset 0, flags 
[none], length: 72) 
10.0.0.1 > 10.0.0.54: icmp 52: 
10.0.0.1 udp port tftp unreachable 
for IP (tos 0x0, ttl 128, id 9915, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


5 09:45:49.014812 IP (tos 0x0, ttl 128, id 9916, offset 0, 
flags [none], length: 44) 


10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


6 09:45:49.014812 IP (tos Oxc0, ttl 255, id 43736, offset 0, flags 
[none], length: 72) 
10.0.0.1 > 10.0.0.54: icmp 52: 
10.0.0.1 udp port tftp unreachable 
for IP (tos 0x0, ttl 128, id 9916, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 
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7 09:45:49.024812 IP (tos 0x0, ttl 128, id 9917, offset 0, 
flags [none], length: 44) 


10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


8 09:45:49.024812 IP (tos 0xc0, ttl 255, id 43737, offset 0, 
flags [none], length: 72) 
10.0.0.1 > 10.0.0.54: icmp 52: 
10.0.0.1 udp port tftp unreachable 
for IP (tos-0x0, ttl 128, id 9917, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


9 09:45:49.024812 IP (tos 0x0, ttl 128, id 9918, offset 0, 
flags [none], length: 44) 


10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


10 09:45:49.024812 IP (tos OxcO, ttl 255, id 43738, offset 0, 
i flags [none], length: 72) 
10.0.0.1 > 10.0.0.54: icmp 52: 
10.0.0.1 udp port tftp unreachable 
for IP (tos 0x0, ttl 128, id 9918, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


11 09:45:49.034812 IP (tos 0x0, ttl 128, id 9919, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


12 09:45:49.034812 IP (tos 0xc0, ttl 255, id 43739, offset 0, 
flags [none], length: 72) 
10.0.0.1 > 10.0.0.54: icmp 52: 
10.0.0.1 udp port tftp unreachable 
for IP (tos 0x0, ttl 128, id 9919, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


13 09:45:49.034812 IP (tos 0x0, ttl 128, id 9920, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


14 09:45:57.054812 IP (tos 0x0, ttl 128, id 22856, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 
RRQ "/foo" netascii 


15 09:45:57.054812 IP (tos OxcO, ttl 255, id 43740, offset 0, 
flags [none], length: 72) 
10.0.0.1 > 10.0.0.54: icmp 52: 
10.0.0.1 udp port tftp unreachable 
for IP (tos 0x0, ttl 128, id 22856, offset 0, 
flags [none], length: 44) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 16 


# 8 
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RRQ "/foo" netascii 


16 09:45:57.064812 IP (tos 0x0, ttl 128, id 22906, offset 0, 
flags [none], length: 51) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 
23 ERROR EUNDEF timeout on receive" 


17 09:45:57.064812 IP (tos 0xc0, ttl 255, id 43741, offset 0, 
flags [none], length: 79) 
10.0.0.1 > 10.0.0.543 icmp 593 
10.0.0.1 udp port tftp unreachable 
for IP (tos 0x0, ttl 128, id 22906, offset 0, 
flags [none], length: 51) 
10.0.0.54.3871 > 10.0.0.1.tftp: [udp sum ok] 
23 ERROR EUNDEF timeout on receive" 


这 里 我 们 看 到 一 组 7 个 请 求 彼此 在 时 间 上 非常 接近 。 目 的 地 是 TFTP 服务 (端口 69 ) 的 
初始 请 求 (文件 /foo 用 RRQ 标识 ) XÉ UDP 端口 3871。 马 上 有 一 个 ICMPv4 端口 不 可 达 报 
文 返回 ( 包 2), 但 TFTP 客户 端 似乎 忽略 了 它 ， 立 即 发 送 了 另 一 个 UDP 数据 报 。 这 样 又 持 
续 了 6 次 。 在 又 等 待 了 gs 后， 客户 端 做 了 最 后 一 次 尝试 ， 最 终 放弃 了 。 

请 注意 ICMPv4 报 文 发 送 的 时 候 并 未 指定 任何 端口 号 ， 而 每 个 16 字 节 的 TFTP 数据 
包 是 从 一 个 特定 的 端口 (3871 ) 发 送 到 另 一 个 特定 的 端口 的 (TFTP， 等 于 69 )。 在 每 一 个 
TFTP 读 请 求 ( RRQ) 尾部 的 数值 16 表示 在 UDP 数据 报 中 数据 的 长 度 。 在 本 例 中 ，16 是 如 
下 字段 之 和 : TFTP 中 2 个 字 节 的 操作 码 ， 以 null 结尾 的 5 个 字 节 文件 名 /foo， 以 null 结尾 
的 9 字 节 字符 串 netascii。 图 8-5 描述 了 整个 ICMPv4 不 可 达 报 文 。 它 的 长 度 是 52 个 字 节 
(不 包括 IPv4 头 部 ): 4 字 节 的 基本 ICMPv4 头 ， 后 面 是 4 字 节 的 未 使 用 字段 〈( 见 图 8-5， 此 实 
现 没 有 使 用 [RFC4884] 扩展 )，20 字 节 的 违规 IPv4 头 部 ，8 字 节 的 UDP 头 部 ， 剩 下 的 16 字 
节 来 自 于 原始 tftp 应 用 请 求 (4+4+20+8+16=52)。 




















IPv4 数据 报 
4 
ICMPv4 报 文 ICMP 负载 
(违规 数据 报 部 分 ) 
i ICMP 头 部 | 违规 数据 报 

IPv4 头 部 的 全 头 部 pri TFTP 的 应 用 层 数据 
(协议 =1) |( 未 使 用 的 )| (协议 =17)| > 

(20 字 节 ) (8 字 节 ) (20 字 节 ) (8 字 节 ) (不 超过 520 字 节 ) 
( 没有 选项 ) (没有 选项 ) 


图 8-5 ”一 个 ICMPv4 目的 不 可 达 -端口 不 可 达 差 错 报 文 ,包含 尽 可 能 多 的 违规 IPv4 数据 报 , 但 总 的 
IPv4 数据 报 长 度 不 能 超过 576 字 节 。 在 这 个 例子 中 ， 有 足够 的 空间 包括 整个 TFTP 请 求 报 文 


如 前 所 述 ，ICMP 在 差错 报 文中 之 所 以 包含 违规 IP 头 部 ， 是 因为 这 样 做 有 助 于 ICMP 解 
释 封装 在 IP 头 部 后 的 字 节 (在 这 个 例子 中 的 UDP 头 部 )。 由 于 违规 的 UDP 头 部 包含 在 返回 
的 ICMP 报 文中 ， 因 此 也 可 以 学 习 到 源 和 目的 端口 号 。 正 是 这 个 目的 端口 号 (tftp，69 ) 导致 
产生 了 ICMP 端口 不 可 达 报 文 。 接 收 到 ICMP 差错 报 文 的 系统 能 够 利用 源 端口 号 (3871 ) 将 
差错 和 特定 用 户 进程 相关 联 (尽管 我 们 看 到 这 个 例子 中 的 TFTP 客户 端 并 没有 很 好 地 利用 这 


个 指示 )。 
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需要 注意 的 是 在 第 7 个 请 求 之 后 ( 包 13 )， 一 段 时 间 没 有 差错 返回 。 之 所 以 会 这 样 ， 原 
因 是 基于 Linux 的 服务 器 有 速率 限制 (rate limiting)。 也 就 是 说 ， 根 据 [RFC1812] 的 建议 ， 
限制 了 在 一 段 时 间 内 产生 相同 类 型 的 ICMP 报 文 的 数量 。 我 们 看 一 下 8s 空白 之 前 的 初始 差 
错 报 文 ( 包 2， 时 间 惟 48.974812 ) 和 最 后 报 文 ( 包 12， 时 间 戳 49.034812 ) 之 间 经 过 的 时 间 ， 
计算 可 知 经 过 了 60ms。 假 如 我 们 计算 在 这 段 时 间 内 的 ICMP 报 文 个 数 ， 可 以 得 到 (6 报 文 
/0.06s) = 100 报 文 /s， 这 就 是 速率 限制 。 这 可 以 通过 检查 Linux 上 ICMPv4 的 速率 掩 码 和 速 
率 限制 来 验证 : 


Linux% sysctl -a | grep icmp_rate 
net.ipv4.icmp_ ratemask = 6168 
net.ipv4.icmp_ ratelimit = 100 


在 这 里 我 们 看 到 多 个 ICMPv4 报 文 是 被 限制 速率 的 ， 而 且 所 有 的 速率 限制 是 100 (以 每 
秒 的 报 文 个 数 测量 )。 变 量 ratemask 指示 哪些 报 文 有 速率 限制 ， 假 如 需要 限制 代码 号 为 上 的 
报 文 ， 那么 就 打开 掩 码 中 从 0 开始 的 第 大 位 。 在 这 种 情况 下 ， 代 码 号 3、4、11、12 的 报 文 
将 被 限制 (因为 6168 = 0x1818 = 0001100000011000， 其 中 从 右 开 始 的 第 3、4、11、12 位 被 
置 1 )。 如 果 将 速率 限制 设 为 0 ( 即 没有 限制 )， 我 们 会 发 现 Linux 返回 9 个 ICMPv4 报 文 ， 每 
个 对 应 一 个 tftp 请 求 报 文 ，tftp 客户 端 几乎 立即 超时 。 试 图 访问 Windows XP 的 机 器 时 ， 由 
于 它 不 执行 ICMP 速率 限制 ， 因 此 会 发 生 这 种 行为 。 

为 什么 当 差错 报 文 返回 时 ，TFTP 客户 端 会 不 断 地 重 传 请 求 ? 一 个 网 络 编程 的 细节 在 这 
里 被 揭晓 。 大 多 数 系统 不 通知 采用 UDP 的 用 户 进程 ， 即 便 针 对 它们 的 ICMP 报 文 已 经 到 达 ， 
除非 该 进程 调用 了 一 个 特殊 函数 ( 即 UDP 套 接 字 的 connect)。 通 用 的 TFTP 客户 端 不 会 调用 
这 个 函数 ， 所 以 它们 从 来 不 会 收 到 ICMP 差错 通知 。 当 没有 收 到 任何 关于 TFTP 协议 请 求 的 
响应 时 ，TFTP 客户 端 一 次 又 一 次 地 尝试 获取 文件 。 这 是 一 个 设计 较 差 的 请 求 和 重 试 机 制 的 
例子 。 虽 然 TFTP 确实 有 调整 这 种 行为 (I [RFC2349]) 的 扩展 ， 但 我 们 将 在 后 面 看 到 (在 第 
16 章 ) 更 复杂 的 传输 协议 如 TCP 会 有 一 个 更 好 的 算法 。 


8.3.2.5 ICMPv4 PTB (代码 4) 

如 果 一 个 IPv4 路 由 器 收 到 一 个 打算 转发 的 数据 报 ， 如 果 数 据 报 大 于 选 定 的 传 出 网 络 接 
口 的 MTU， 则 数据 报 需 要 分 片 ( 见 第 10 章 )。 如 果 到 达 的 数据 报 在 IP 头 部 中 设置 了 不 分 片 
(Don’t Fragment) 位 字段 ， 那 么 它 会 被 丢弃 而 不 是 转发 ， 此 时 将 产生 ICMPv4 目的 不 可 达 
(PTB) 报 文 。 由 于 发 送 此 报 文 的 路 由 器 知道 下 一 跳 的 MTU， 为 此 能 够 将 MTU 值 包含 在 它 生 


成 的 差错 报 文中 。 0 15 16 31 
此 报 文 本 来 是 用 于 诊断 网 络 的 ， 但 已 | 类 型 (2) | 代码 (0) 校 验 和 





被 用 于 路 径 MTU 发 现 。 当 与 一 个 特定 主机 MTU 
通信 时 ， 如 果 想 要 避免 对 数据 包 进 行 分 片 ，， 
PMTUD 被 用 来 确定 合适 的 包 大 小 。 它 通常 与 
TCP 一 起 使 用 ， 我 们 将 在 第 14 章 中 对 其 进行 | 
详细 描述 。 | ! 


IPv6 头 部 + 原始 数据 报 的 初始 字 节 








8.3.2.6 ICMPv6 PTB (类 型 2， 代 码 0) 图 8-6 ICMPv6 的 数据 包 太 大 报 文 (类 型 2 ) 像 
在 ICMPv6 中 ， 一 个 特殊 的 报 文 和 类 型 ICMPv4 的 目的 不 可 达 报 文 一 样 工 作 。 
代码 组 合 可 用 于 表示 一 个 数据 包 对 于 下 一 跳 ICMPv6 变 体 包含 32 比特 用 于 保存 下 一 


的 MTU 而 言 实在 太 大 WEI 8-6 )。 跳 的 MTU 
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这 个 报 文 不 是 一 个 目的 不 可 达 报 文 。 回 想 一 下 ， 在 IPv6 中 只 有 数据 报 的 发 送 者 才能 执 
行 数据 包 分 片 ， 且 总 是 采用 MTU 发 现 机 制 。 因 此 ， 这 个 报 文 主要 是 被 IPv6 的 PMTUD 机 制 
使 用 ， 但 是 偶尔 也 用 在 当 一 个 到 达 的 数据 包 对 下 一 跳 来 说 太 大 了 导致 不 能 传输 的 情况 。 因 为 
路 由 在 PMTUD 操作 及 数据 包 被 投入 网 络 之 后 可 能 会 改变 ， 因 此 到 达 路 由 器 的 数据 包 大 于 传 
出 的 MTU 的 情况 总 是 有 可 能 发 生 的。 与 现代 ICMPYv4 实现 中 的 目的 不 可 达 代 码 4 (PTB) 报 
文 一 样 ， 基 于 产生 ICMP 报 文 的 路 由 器 的 出 口 链 路 的 MTU 来 确定 的 数据 包 MTU 大 小 被 包 
含 在 指示 (indication) 中 。 


8.3.2.7 ICMPv6 超出 源 地 址 范围 (代码 2 ) 

正如 我 们 在 第 2 章 看 到 的 ，IPv6 使 用 不 同 范围 的 地 址 。 因 此 ， 有 可 能 会 构建 一 个 不 同 范 
围 的 源 和 目的 地 址 的 数据 包 。 此 外 ， 在 相同 范围 内 其 目的 地 址 有 可 能 是 无 法 到 达 的 。 例 如 ， 
使 用 本 地 链 路 范围 的 源 地 址 的 数据 包 ， 其 目的 地 址 可 能 是 一 个 需要 遍历 多 跳 路 由 的 全 局 范围 
的 地 址 。 由 于 源 地 址 的 范围 不 足 ， 数 据 包 将 被 通过 的 路 由 器 丢弃 ， 同 时 生成 一 个 这 种 形式 的 
ICMPv6 差错 报 文 以 表示 这 个 问题 。 
8.3.2.8 ICMPv6 源 地 址 失败 进 /出 策略 (代码 5 ) 

代码 5 是 代码 1 更 为 细 化 的 版 本 ,使 用 在 当 一 个 特定 的 入 口 或 出 口 过 滤 政 策 是 导致 数据 
报 无 法 成 功 投递 的 原因 时 。 这 可 能 会 使 用 在 : 例如 ， 当 一 个 主机 试图 采用 一 个 意 想不到 的 网 
络 前 缀 的 源 IPv6 地 址 来 发 送 流量 时 [RFC3704]。 


8.3.2.9 ICMPv6 拒绝 路 由 到 目的 地 (代码 6) 

一 个 拒绝 (reject) 或 封 阻 路 由 (blocking route) 是 一 个 特殊 的 路 由 或 转发 条 目 ( 见 第 5 
章 )， 指 示 匹 配 的 数据 包 应 该 被 丢弃 ， 并 生成 一 个 ICMPv6 目的 不 可 达 拒 绝路 由 报 文 。( 一 个 
类 似 的 称 为 黑洞 路 由 ( blackhole route) 的 条 目 也 能 够 丢弃 匹配 的 数据 包 ,， 但 是 并 不 会 生成 目 
的 不 可 达 报 文 。) 这 些 路 由 可 能 会 安装 在 路 由 器 的 转发 表 中 ， 以 防止 数据 包 被 发 送 到 不 希望 
的 目的 地 中 。 不 希望 的 目的 地 可 能 包括 火星 (martian) 路 由 (公共 互联 网 上 并 未 使 用 的 前 级 ) 
和 虚假 (bogons) 路 由 (尚未 分 配 的 有 效 前 级 )。 


8.3.3” 重 定向 (ICMPv4 类 型 5，ICMPv6 类 型 137 ) 


假如 一 个 路 由 器 收 到 一 个 来 自主 机 的 数据 报 ， 并 确定 自身 并 不 是 主机 将 数据 报 投 递 到 目 
的 地 的 对 应 下 一 跳 ， 则 该 路 由 器 发 送 一 个 重 定向 报 文 到 主机 并 将 该 报 文 发 送 到 正确 的 路 由 器 
(或 者 主机 )。 也 就 是 说 ， 如 果 它 能 够 确定 给 定 的 数据 报 存在 一 个 比 自己 更 好 的 下 一 跳 路 由 ， 
它 就 向 主机 发 送 重 定向 报 文 使 其 更 新 转发 表 ， 这 样 以 后 目的 地 一 样 的 流量 就 会 被 定向 到 新 的 
节点 中 。 这 项 功能 通过 向 IP 转发 功能 指示 向 哪里 发 送 数据 包 提 供 了 一 种 路 由 协议 的 原始 形 
式 。 在 第 5 章 详细 讨论 了 IP 转发 过 程 。 

在 图 8-7 中 ， 一 个 网 段 中 有 1 台 主 机 和 2 台 路 由 器 ，R1 和 R2。 当 主机 不 正确 地 使 用 路 
由 器 R2 发 送 一 个 数据 报时 ，R2 通过 向 主机 发 送 一 个 重 定向 报 文 进行 回复 ， 同 时 将 该 数据 报 
转发 到 R1。 尽 管 主 机 可 能 被 配置 为 根据 ICMP 重 定向 报 文 来 更 新 它们 的 转发 表 , 但 是 在 路 
由 器 通过 动态 路 由 协议 已 经 知道 所 有 可 达 目 的 地 的 最 佳 下 一 跳 节点 这 样 的 假设 下 ， 路 由 器 不 
鼓励 这 么 做 。 

ICMP 重 定 问 报 文 包含 了 主机 针对 ICMP 差错 报 文 (参见 图 8-8 ) 中 指定 的 目的 地 址 应 该 
采用 的 下 一 跳 路 由 器 (或 者 目的 主机 ， 如 果 采 用 直接 交付 的 方式 可 达 的 话 ) 的 IP 地址。 之 前 
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的 重 定向 功能 支持 区 别 重 定向 到 一 台 主 机 和 重 定向 到 一 个 网 络 〈《network)， 但 是 自从 无 类 地 
址 被 采用 之 后 ( CIDR， 参 见 第 2 章 )， 网 络 重 定向 形式 便 消失 了 。 这 样 ， 当 一 个 主机 接收 到 
一 个 主机 重 定 向 ， 它 只 针对 单个 I 目的 地 址 是 有 效 的 。 一 个 总 是 选择 错误 路 由 器 的 主机 能 
够 通过 为 每 个 访问 的 本 地 子 网 之 外 的 目的 地 址 设置 一 个 转发 表 条 目 来 结束 这 种 情况 ， 其 中 每 
个 条 目 是 通过 接收 它 配置 的 默认 路 由 器 的 重 定向 报 文 来 添加 的 。ICMPv4 的 重 定向 报 文 格 式 


如 图 8-8 所 示 。 





图 8-7 主机 不 正确 地 通过 R2 向 目的 地 发 送 了 一 个 数据 报 。R2 意识 到 了 主机 的 错误 ， 并 发 送 数据 报到 
适当 的 路 由 器 R1。 它 还 通过 发 送 一 个 ICMP 重 定向 报 文 来 通知 主机 的 错误 。 主 机 也 期 望 调整 
它 的 转发 表 ， 以 便 将 来 到 相同 目的 的 报 文 会 通过 R 而 不 再 打扰 R2 

15 16 31 
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应 该 被 用 作 下 一 跳 的 IPv4 地 址 








尽量 多 地 包含 违规 数据 报 , 只 要 最 终 的 


| IP/ICMP 数据 报 不 超过 576 字 节 | 


图 8-8 ”ICMPv4 重 定向 报 文 在 其 有 效 负 载 部 分 中 包含 了 数据 报 下 一 跳 正确 路 由 器 的 IPv4 地 址 。 一 个 主 
机 通过 检查 到 来 的 重 定向 报 文 的 源 IPv4 地 址 来 验证 它 是 否 来 自 当 前 正 使 用 的 默认 路 由 器 


我 们 可 以 通过 改变 主机 使 用 一 台 不 正确 的 路 由 器 (相同 网 络 上 的 另 一 台 主 机 ) 作为 默认 
的 下 一 跳 ， 来 演示 重 定向 报 文 的 行为 。 作 为 一 个 例子 ， 我们 首先 改变 我 们 的 默认 路 由 ， 然 后 
尝试 联系 远程 服务 器 。 我 们 的 系统 会 错误 地 尝试 转发 外 输 数 据 包 到 指定 主机 : 


C:\> netstat -rn 


Network Dest Netmask Gateway Interface Metric 
0.0.0.0 0.0.0.0 TO. 272) 21 10.212.2.88 1 

C:\> route delete 0.0.0.0 delete default 

C:\> route add 0.0.0.0 mask 0.0.0.0 10.212.2.112 add new 

C:\> ping dsl.eecs.berkeley.edu sends thru 10.212.2.112 


Pinging dsl.eecs.berkeley.edu [169.229.60.105] with 32 bytes of data: 


Reply from 169.229.60.105: bytes=32 time=lms TTL=250 
Reply from 169.229.60.105: bytes=32 time=5ms TTL=250 
Reply from 169.229.60.105: bytes=32 time=lms TTL=250 
Reply from 169.229.60.105: bytes=32 time=lms TTL=250 


Ping statistics for 169.229.600.105: 
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Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), 
Approximate round trip times in milli-seconds: 
Minimum = lms, Maximum = 5ms, Average = 2ms 
当 这 些 正 在 发 生 时 ， 我 们 可 以 通过 运行 tcpdump 来 观察 这 些 活动 (为 了 醒目 ， 其 中 一 些 
行 已 经 被 隐藏 ): 
Linux# tcpdump host 10.212.2.88 
i 1 20:27:00.759340 IP 10.212.2.88 > dsl.eecs.berkeley.edu: icmp 40: 
echo request seq 15616 
2 20:27:00.759445 IP 10.212.2.112 > 10.212.2.88: icmp 68: 
redirect dsl.eecs.berkeley.edu to host 10.212.2.1 


3 20:27:00.759468 IP 10.212.2.88 > dsl.eecs.berkeley.edu: icmp 40: 
echo request seq 15616 


此 处 我 们 的 主机 (10.212.2.88 ) 发 送 一 个 ICMPv4 回 显 请 求 (ping) 报 文 到 主机 ds1.eecs. 
berkeley.edu。 当 主机 名 经 过 DNS (参见 第 11 章 ) 域名 解析 转换 为 IPv4 地 址 169.229.60.105 
后 ， 请 求 报 文 被 发 送 到 第 一 跳 10.212.2.112， 而 不 是 正确 的 默认 路 由 器 10.212.2.1。 由 于 IPv4 
地 址 为 10.212.2.112 的 系统 是 被 正确 配置 的 ， 它 能 够 明白 原始 的 发 送 主机 应 该 使 用 路 由 器 
10.212.2.1。 正 如 期 望 的 那样 ， 它 向 主机 回复 一 个 ICMPv4 重 定向 报 文 ， 表 示 在 今后 任何 目的 
地 是 dsl.eecs.berkerly.edu 的 流量 应 该 通过 路 由 器 10.212.2.1。 

在 ICMPv6 中 ， 重 定向 报 文 (类 型 137 ) 包含 目标 地 址 和 目的 地 址 (参见 图 8-9 )， 它 是 和 









ND 过 程 一 一 起 被 定义 的 (参见 8.5 “Hs g 0 15 16 
标 地址 (Target Address) 字段 包含 用 于 下 CRT CO) | TY 


一 跳 的 正确 节点 的 本 地 链 路 IPv6 地 址 。 
目的 地 址 (Destination Address) 是 数据 报 
中 触发 这 个 重 定向 的 目的 IPv6 地 址 。 当 
目的 地 址 和 接收 到 重 定向 报 文 的 主机 是 在 
同一 个 链 路 上 时 ， 目 标 地 址 和 目的 地 址 字 


段 是 一 样 的 。 这 种 方法 能 够 告诉 一 台 主 机 
另 一 台 主 机 是 在 同一 个 链 路 上 的 ， 即 使 它 


们 使 用 的 地 址 前 组 不 同 [RFC5942]。 


与 ICMPv6 中 的 其 他 ND 报 文 一 样 ， 图 8-9 ICMPv6 重 定向 报 文 。 目 标 地 址 字段 指出 了 针 


这 个 报 文 能 够 包含 选项 。 这 些 选项 类 型 A ERTA ek nd 跳 路 由 器 
部 选项 当 重 定向 报 文 在 一 个 非 广播 多 rie 


AR SE eae 
路 访 问 (non-broadcast multiple access, 同一 个 链 路 上 的 。 在 这 种 情况 下 ， 目 的 地 址 和 


NBMA) 网 络 使 用 时 ， 必 须 包含 目标 链 tin Miia 

路 层 地 址 选项 ， 这 是 因为 在 这 种 情况 下 接收 重 定向 报 文 的 主机 没有 其 他 更 为 有 效 的 方法 来 确 
定 新 的 下 一 跳 的 链 路 层 地 址 。 重 定向 头 部 选项 包含 了 导致 产生 重 定向 报 文 的 IPv6 数据 包 中 
的 一 部 分 。 我 们 会 在 8.5 节 探讨 IPv6 邻居 发 现时 再 讨论 这 些 及 其 他 选项 的 格式 。 


8.3.4 ICMP 超时 (ICMPv4 类 型 11，ICMPv6 类 型 3 ) 
每 个 IPv4 数据 报 在 头 部 中 都 有 一 个 生存 周期 (Time-to-Live，TTL ) 字段 ， 而 每 个 IPv6 
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数据 报 在 其 头 部 中 都 有 一 个 跳 数 限制 (Hop Limit) 字段 (参见 第 5 章 )。 按 照 最 初 的 设想 ，8 
位 TTL 字段 保存 了 一 个 数据 报 被 强制 丢弃 之 前 允许 活跃 在 网 络 中 的 秒 数 (如果 存在 转发 环 
路 ， 这 将 是 一 件 好 事 )。 因 为 男 外 一 个 规则 表明 ， 任 何 一 个 路 由 器 对 TTL 字段 至 少 减 1， 考 
虑 到 数据 报 的 实际 转发 时 间 远 小 于 1 秒 这 个 事实 ， 在 实际 中 TTL 字段 被 用 于 限定 一 个 IPv4 
数据 报 在 被 路 由 器 丢弃 之 前 所 允许 的 跳 数 限制 。 这 种 用 法 最 终 在 IPv6 中 被 正式 采用 。 当 由 
F TTL 或 跳 数 限制 字段 值 太 小 ( 即 到 达 值 0 或 1， 且 必须 转发 ) 致使 路 由 器 丢弃 报 文 时 ， 会 
产生 ICMP 超时 (代码 0 ) 报 文 。 此 报 文 对 于 保证 traceroute 工具 的 正常 运作 是 很 重要 的 (在 
Windows 上 称 为 tracert)。 图 8-10 给 出 了 ICMPv4 和 ICMPv6 的 格式 。 
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0 
类 型 代码 


未 使 用 (0 ) 
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图 8-10 ICMPv4 #fl ICMPv6 的 ICMP 超时 报 文 格式 。 当 TTL 或 者 跳 数 超出 (代码 0 ) 或 者 分 片 重组 的 
时 间 超 过 预先 配置 的 阅 值 (代码 1 ) 时 ， 便 会 产生 该 报 文 


男 一 个 不 常见 的 该 报 文 的 变 体 出 现在 当 一 个 分 片 的 IP 数据 报 只 有 部 分 到 达 目 的 地 时 ( 即 
在 一 段 时 间 后 并 不 是 所 有 的 分 片 都 到 达 了 )。 在 这 种 情况 下 ， 一 个 ICMP 超时 报 文 (代码 1 ) 
的 变 体 被 用 于 告知 发 送 者 它 的 整个 数据 报 被 丢弃 了 。 回 想 一 下 ， 如 果 一 个 数据 报 中 的 任何 一 
个 分 片 被 丢弃 了 ， 那 么 整个 数据 报 就 丢失 了 。 


例子 : traceroute 工具 

traceroute 工具 被 用 于 确定 从 发 送 者 到 目的 地 路 径 上 的 路 由 器 。 我 们 将 讨论 IPv4 版 本 的 
操作 。 该 方法 首先 发 送 IPv4 TTL 字段 设置 为 1 的 数据 报 ， 到 期 的 数据 报 促使 沿途 路 由 器 发 
送 ICMPv4 超时 (代码 0 ) 报 文 。 每 一 轮 ， 发 送 的 TTL 值 增加 1， 导致 数据 报 在 更 远 一 跳 的 
路 由 器 处 超时 ， 并 产生 一 个 ICMP 报 文 。 这 些 报 文 从 路 由 器 中 “ 面 对 ” 发 送 者 的 主 IPv4 地 
址 发 出 。 图 8-11 展示 了 这 种 方法 是 如 何 工作 的 。 


公共 下 地 址 : 192.0.2.201 
(由 ISP 分 配 ) 







笔记 本 
192.168.0.93 10.0.1.1 


图 8-11 traceroute 工具 被 用 于 确定 路 由 的 路 径 ， 假 设 该 路 径 波 动 不 大 。 当 使 用 traceroute， 路 由 器 被 
识别 为 “面向 ”或 者 靠近 执行 追踪 的 主机 接口 所 分 配 的 IP 地 址 


在 这 个 例子 中 ，traceroute 被 用 于 从 笔记 本 发 送 UDP 数据 报 (参见 第 10 章 ) 到 主机 
www.eecs.berkeley.edu (是 一 个 IPv4 地 址 为 128.32.244.172 的 Internet 主机 ， 在 图 8-11 中 并 
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未 显示 )。 这 是 通过 使 用 如 下 命令 完成 的 : 
Linux% traceroute -m 2 www.cs.berkeley.edu 
traceroute to web2.eecs.berkeley.edu (128.32.244.172), 2 hops max, 
52 byte packets 
1 gw (192.168.0.1) 3.213 ms 0.839 ms 0.920 ms 
2 10.0.0.1 (10.0.0.1) 1.524 ms 1.221 ms 9.176 ms 


-m 选项 指示 traceroute 只 执行 两 个 回合 : 一 个 使 用 TTL = 1， 另 一 个 使 用 TTL = 2。 每 一 

行 给 出 了 对 应 的 TTL 的 信息 。 例 如 ， 行 1 表示 找到 了 距离 为 1 跳 的 IPv4 地 址 为 192.168.0.1 

eh 同时 测试 了 3 个 独立 的 往返 周期 (3.213ms, 0.839ms, 0.920ms)。 第 一 个 时 间 和 后 

续 时 间 有 差异 ， 是 因为 在 第 一 个 测量 中 涉及 一 些 额外 工作 ( 即 一 个 ARP 事务 )。 图 8-12 和 

图 8-13 显示 Wireshark 捕获 的 数据 包 ， 指 出 了 传 出 的 数据 报 和 返回 的 ICMPv4 报 文 是 如 何 组 
织 的 。 


EAA Saites Telephony Tools Help WS Ty 
oe Saxe Yoo F 2) Bie aaan| BDR a 











0:6a:0a769 (00:20:20:6a;0 
“172 (128.32.244.172) 
version: 4 
Header length: 20 bytes 
@ Differentiated Services Field: Ox00 〔DSCP 0x00: Default; ECN: 0x00) 
Total Length: 52 
Identification: Ox8b21 (35617) 
f Flags: 0x00 
Fragment offset: 0 
w Time to, Vives 1 
Protocol: UDP (17) 
困 Header checksum: Oxf8c5 [correct] 
Source: 192.168.0.93 (192.168.0.93) 
Destination: 128.32.244.172 (128.32.244.172) 
User Datagram Protocol, -| eta lee (35010), Dei sara M3 £33435) Wor A i 
@ Data (24 bytes)” Cmca 





图 8-12 使 用 IPv4 YY traceroute 以 发 送 一 个 TTL = 1 的 UDP/IPv4 数据 报到 目的 端口 号 33435 开始 。 在 
加 1 和 重 试 之 前 每 个 TTL 值 将 被 尝试 3 次 。 每 个 到 期 数据 报导 致 在 恰当 跳 数 距离 的 路 由 器 发 
送 一 个 ICMPv4 超时 报 文 返回 源头 。 报 文 的 源 地 址 是 “ 面 对 ” 发 送 者 一 方 的 路 由 器 的 接口 地 址 


在 图 8-12 中 ， 我 们 能 够 看 到 traceroute 发 送 了 6 个 数据 报 ， 每 个 数据 报 是 按 顺 序 发 
送 到 目的 端口 号 的 ， 以 33435 开始 。 如 果 我 们 仔细 观察 会 发 现 ， 前 三 个 发 送 的 数据 报 的 
TTL = 1， 第 二 组 发 送 的 三 个 数据 报 的 TTL = 2。 图 8-12 显示 了 第 一 个 。 每 个 数据 报 会 导致 
发 送 一 个 ICMPv4 超时 (代码 0 ) 报 文 。 前 三 个 是 从 路 由 器 N3 (IPv4 地 址 192.168.0.1 ) 发 出 
的 ， 后 三 个 是 从 路 由 器 N2 (IPv4 地 址 10.0.0.1) 发 出 的 。 图 8-13 显示 了 最 后 一 个 ICMP 报 
文 的 详细 信息 。 

这 是 此 追踪 的 最 终 ICMP 超时 报 文 。 它 包含 了 在 N2 接收 时 看 到 的 原始 的 IPv4 数据 报 
( 包 11 )。 该 数据 报到 达 的 时 候 其 TTL = 1， 但 是 在 递减 之 后 值 太 小 了 ， 以 至 于 N2 不 能 执行 
额外 转发 到 128.32.244.172 的 操作 。 因 此 ，N2 向 原始 数据 报 的 源 地 址 发 送 一 个 超时 报 文 。 
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traceroute.tr - Wireshark 








‘wire (752 aes 04 = apt (752 s) 
mu, sre: 00720:60:64:0a:69 (00:20:e0:6a:0a169), Ost: OO:L7:F2:¢7: ea (C0017 F257: 8a:63) _ 


net Protocol, Sres T0004 (0.0.0.1), Ost: 192.168.0.93 (192.168.093) 
9 Internet Control message Protocol 
Type: 11 (Time-to-live exceeded) 
Code: 0 (Time to live exceeded in transit) 
checksum: Ox2b04 [correct] 
a Internet Protocol, Src? 192.168.0.93 (192.168.0,93), Dst: 128,32.244.172 (128.32.244.172) 
version: 4 
Header Tength: 20 bytes 
@ Differentiated Services Field: 0x00 CDSCP 0x00: Default; ECN: 0x00) 
Total Length: 52 
Identification: Ox8b26 (35622) 
@ Flags: 0x00 
Fragment offset: 0 
& Time to live: 0 
Protocol: UDP (17) 
@ Header checksum: Oxf9cO [correct] 
Source: 192.168.0.93 (192.168.0.93) 
Destination: 128.32.244.172 (128.32.244.172) 
H- — — Sid -一 35616 一 一 一 Ost pansa FAAO) Gaa 





图 8-13 此 追踪 中 的 最 后 一 个 ICMPv4 超时 报 文 是 由 路 由 器 N2 (IPv4 地 址 是 10.0.0.1 ) 发 出 的 。 它 包 
含 了 导致 产生 超时 报 文 的 原始 数据 报 的 一 个 拷贝 。 内 部 IPv4 头 部 的 TTL 字段 为 0， 这 是 因为 
N2 将 其 从 1 减 为 0 


8.3.5 ”参数 问题 (ICMPv4 类 型 12，ICMPv6 类 型 4 ) 


当 一 个 主机 或 者 路 由 器 接收 到 一 个 P 数据 报 ， 其 IP 头 部 存在 不 可 修复 的 问题 时 便 会 产 
生 一 个 ICMP 参数 问题 报 文 。 当 一 个 数据 报 不 能 够 被 处 理 ， 且 没有 其 他 的 ICMP 报 文 来 描述 
这 个 问题 时 ， 这 个 报 文 充当 了 一 个 “包罗 万 象 ”的 错误 状态 指示 器 。 在 ICMPv4 和 ICMPv6 
中 ， 当 头 部 中 某 个 字段 超过 可 接受 范围 导致 了 一 个 错误 时 ， 一 个 特殊 的 ICMP 差错 报 文 指 
针 (Pointer) 字段 指示 了 错误 字段 相对 于 出 错 IP 头 部 的 偏 移 值 。 以 ICMPv4 为 例 ， 指 针 字 
段 值 为 1 表示 一 个 错误 的 IPv4 DS 字段 或 者 ECN 字段 (这 些 字段 以 前 称 为 IPv4 服务 类 型 
( Type of Service) 或 者 ToS 字 节 (ToS Byte)， 但 已 经 被 重新 定义 和 命名 过 了 。 参 见 第 5 章 )。 
ICMPv4 的 参数 问题 报 文 格式 如 图 8-14 所 示 。 

代码 0 是 ICMP 参数 问题 报 文 最 为 常见 的 变 体 ， 可 用 于 Pv 头 部 中 出 现 的 任何 问题 ， 
尽管 当头 部 或 者 数据 报 的 总 长 度 字段 出 现 问题 时 可 能 会 产生 代码 为 2 的 报 文 。 代 码 1 以 前 被 
用 于 指示 数据 包 中 缺少 例如 安全 标志 之 类 的 选项 ， 但 目前 已 经 不 用 了 。 代 码 2 是 最 近 才 定 
义 的 代码 ， 指 示 存 在 一 个 损坏 了 的 IHL 或 者 总 长 度 字段 值 (参见 第 5 章 )。 这 个 差错 报 文 的 
ICMPv6 版 本 如 图 8-15 所 示 。 

在 ICMPv6 中 ， 相 对 于 ICMPv4 版 本 ,差错 的 对 待 方式 在 某 种 程度 上 已 经 被 重新 定义 
为 三 种 情况 : 存在 错误 的 头 部 字段 (代码 0 )， 存 在 无 法 识别 的 下 一 个 头 部 (Next Header) 类 
型 (代码 1)， 存 在 无 法 识别 的 IPv6 选项 (代码 2)。 与 ICMPv4 中 对 应 的 差错 报 文 一 样 ， 
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ICMP v6 参数 问题 中 的 指针 字段 给 出 了 相对 于 问题 IPv6 头 部 的 字 节 偏 移 。 例 如 ， 指 针 字段 值 
为 40 指示 第 一 个 IPv6 的 扩展 头 部 中 存在 问题 。 
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代码 
8 字 节 





尽量 多 地 包含 违规 数据 报 , 只 要 最 终 的 IP/ICMP 


| 数据 报 不 超过 576 字 节 | 

图 8-14 ” 当 没 有 其 他 报 文 可 应 用 时 便 采用 ICMP v4 参数 问题 报 文 。 指 针 字 段 指示 了 出 错 的 IPv4 头 部 中 
出 问题 的 值 的 字 节 索引 。 代 码 0 是 为 最 常见 的 。 代 码 1 以 前 用 于 指示 缺失 了 一 个 必需 的 选项 ， 
但 现在 已 成 为 历史 了 。 代 码 2 指示 出 错 的 IPv4 数据 报 存在 一 个 错误 的 IHL 或 者 总 长 度 ( Total 
Length) 字段 
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8 字 节 
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图 8-15 ICMPv6 参数 问题 报 文 。 指 针 字 段 给 出 了 相对 于 发 生 错 误 的 原始 数据 报 的 字 节 偏 移 。 代 码 0 
表示 一 个 出 错 的 头 部 字段 。 代 码 1 表示 一 个 未 识别 的 下 一 个 头 部 类 型 ， 代 码 2 表示 出 现 了 一 
个 未 知 的 IPv6 选项 


当 IPv6 头 部 中 的 某 个 字段 包含 了 一 个 非法 的 值 时 ， 会 导致 错误 头 部 (代码 0 ) 差错 发 
Æo WR IPv6 下 一 个 头 部 ( 头 部 链 ) 字段 包含 了 一 个 IPv6 实现 并 不 支持 的 头 部 类 型 值 的 话 ， 
会 导致 代码 为 1 的 差错 发 生 。 最 终 ， 当 收 到 一 个 无 法 识别 的 IPv6 头 部 选项 时 ， 会 导致 代码 
为 2 的 差错 发 生 。 


8.4 ICMP 查询 / 信息 类 报 文 


RE ICMP 定义 了 一 定数 量 的 查询 报 文 ， 例 如 地 址 掩 码 请 求 /应 答 (类 型 17/18 )、 时 间 
REPR /应 答 (类 型 13/14 )、 信 息 请 求 /应 答 (类 型 15/16 ), 但 是 这 些 功能 已 经 被 其 他 特殊 
目的 的 协议 替代 (包括 DHCP, 参见 第 6 章 )。 唯 一 保存 下 来 的 广泛 使 用 的 ICMP 查询 / 信息 
类 报 文 是 回 显 请 求 / 应 答 报 文 ， 通 常 称 为 ping， 以 及 路 由 器 发 现 报 文 。 虽 然 路 由 器 发 现 机 制 
在 IPv4 中 并 未 广泛 使 用 ,但 是 与 之 类 似 的 功能 (邻居 发 现 中 的 一 部 分 ) 在 IPv6 中 却 是 基本 
的 。 此 外 , ICMPv6 已 经 被 扩展 用 于 支持 移动 IPv6 和 具备 组 播 能 力 的 路 由 器 发 现 。 在 本 节 中 ， 
我 们 将 探讨 回 显 请 求 /应 答 功 能 ， 以 及 用 于 基本 路 由 器 及 组 播 侦 听 发 现 (参见 第 6 和 9 章 ) 
的 报 文 。 在 接 下 来 的 节 中 ， 我 们 将 探索 IPv6 中 的 邻居 发 现 操作 。 
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8.4.1 回 显 请 求 / MS (ping)(ICMPv4 BH 0/8, ICMPv6 类 型 129/128 ) 


一 种 最 为 常用 的 ICMP 报 文 对 就 是 回 显 请 求 和 回 显 应 答 (或 者 回复 )。 在 ICMP v4 中 ， 
它们 的 类 型 分 别 是 8 A, 在 ICMPv6 中 它们 的 类 型 分 别 是 128 和 129。ICMP 的 回 显 请 求 
报 文大 小 几乎 是 任意 的 〈 受 限于 最 终 封 装 的 IP 数据 报 的 大 小 )。 收 到 ICMP 回 显 请 求 报 文 后 ， 
ICMP 的 实现 要 求 将 任何 接收 到 的 数据 返回 给 发 送 者 ， 即 使 涉及 多 个 IP 分 片 。ICMP 的 回 显 
请 求 /应答 报 文 格式 如 图 8-16 所 示 。 

15 16 31 


0 
类 型 ( IPv4 为 0/8, 


数据 (可 选 ) | 











图 8-16 ICMPv4 和 ICMPv6 回 显 请 求 和 回 显 应 答 报 文 格式 。 请 求 中 的 任何 可 选 数据 都 必须 包含 在 应 
答 中 。NAT 使 用 其 中 的 标识 符 字段 来 匹配 请 求 和 应 答 ， 正 如 在 第 7 章 中 讨论 的 那样 


与 其 他 ICMP 查询 /信息 类 报 文 一 样 ， 服 务 器 必须 在 回复 中 包含 标识 符 (Identifier) 和 序 
列 号 (Sequence Number) 字段 。 

这 些 报 文 是 通过 一 个 ping 程序 发 送 的 ， 该 程序 通常 被 用 于 确定 Internet 上 的 一 台 主 机 是 
否 可 达 。 如 果 你 一 度 能 够 “ ping” 到 一 台 主 机 ， 那 么 几乎 确定 能 够 通过 其 他 的 方法 (远程 登 
录 ， 其 他 服务 等 ) 访问 到 它 。 然 而 ， 当 和 防火 墙 一 起 使 用 时 ， 这 就 不 能 完全 确定 了 。 


注意 程序 名 ping 源 自 于 声呐 系统 中 定位 物体 。ping 程序 是 Mike Muuss 编写 的 ， 
他 同时 也 维护 了 一 个 有 趣 的 网 页 来 描述 它 的 历史 [PING]。 


在 ping 的 实现 中 将 ICMP 报 文 的 标识 符 字段 设置 为 某 个 数 ， 发 送 主机 能 够 利用 它 来 分 
离 返回 的 应 答 。 在 基于 UNIX 的 系统 中 ， 例 如 ， 发 送 进程 的 进程 ID 通常 被 放置 在 标识 符 字 
段 。 如 果 有 多 个 ping 在 同一 台 主 机 同时 运行 的 话 ， 这 样 将 允许 ping 应 用 程序 识别 返回 的 应 
答 ， 因 为 ICMP 协议 不 像 传输 层 协议 那样 有 端口 号 。 当 涉及 防火 墙 行为 时 (参见 第 7 章 )， 这 
个 字段 通常 被 称 为 查询 标识 符 (Query Identifier) 字段 。 

当 一 个 新 的 ping 实例 运行 时 ， 序 列 号 字段 从 0 开始 ， 并 且 每 发 送 一 个 回 显 请 求 报 文 便 
增加 1。ping 打印 出 每 个 返回 的 数据 包 的 序列 号 ， 方 便 用 户 查 看 数据 包 是 否 丢失 、 重 排 或 者 
EAT. M—F, IP (Ke ICMP 也 是 ) 是 一 个 尽力 ( best-effort) 数据 报 传递 服务 ， 所 以 
三 者 中 的 任何 一 种 情况 都 有 可 能 发 生 。 但 是 ，ICMP 拥有 IP 没有 提供 的 数据 校 验 和 。 

ping 程序 也 在 传 出 的 回 显 请 求 中 的 可 选 数据 区 域 中 包含 了 一 份 本 地 时 间 拷 贝 。 这 个 时 间 
和 数据 区 域 中 剩余 的 内 容 均 包含 在 返回 的 回 显 应 答 报 文中 。 当 应 答 收 到 时 ，ping 程序 注意 到 
了 当前 时 间 ， 用 它 减 去 应 答 中 的 时 间 ， 便 得 到 了 一 个 到 达 被 ping 的 主机 的 RTT 估计 值 。 由 
于 只 用 到 了 原始 发 送 者 的 当前 时 间 ， 因 此 这 个 特征 不 会 涉及 发 送 者 和 接收 者 之 间 的 时 钟 同 
步 。 工 具 traceroute 中 RTT 的 测量 也 采用 了 类 似 的 方法 。 

先前 版 本 的 ping 程序 每 秒 发 送 一 个 回 显 请 求 报 文 ， 并 打印 出 每 个 返回 的 应 答 。 但 是 ， 
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新 的 实现 增加 了 输出 格式 和 行为 的 变化 。 在 Windows 中 ， 默 认 是 发 送 4 个 回 显 请 求 ， 每 秒 


一 个 ， 输 出 一 些 统计 信息 ， 然 后 退出 。-t 选项 允许 Windows 中 的 ping 程序 不 断 地 发 送 回 显 
请 求 直 到 被 用 户 停止 为 止 。 在 Linux 中 ， 其 行为 就 按 传统 那样 一 一 默认 是 不 停 运行 直到 被 用 
户 中 断 为 止 。 这 些 年 有 许多 别 的 ping 变 体 被 开发 出 来 ， 且 有 许多 别 的 标准 选项 。 使 用 某 些 版 
本 的 ping， 可 以 构建 一 个 包含 特殊 数据 模式 的 大 数据 包 。 这 已 经 被 用 于 在 网 络 通信 设备 中 寻 
找 依赖 于 数据 的 错误 。 

1 在 下 面 的 例子 中 ， 我 们 发 送 一 个 ICMPv4 回 显 请 求 到 子 网 广播 地 址 。 这 个 特定 版 本 的 
ping 程序 (Linux) 需要 我 们 使 用 -b 标志 指示 使 用 广播 地 址 确实 是 我 们 的 真实 意图 (如 果 没 
有 该 标志 将 会 给 出 一 个 警告 ， 因 为 这 将 会 产生 大 量 的 网 络 流量 ): 


Linux% ping -b 10.0.0.127 

WARNING: pinging broadcast address 

PING 10.0.0.127 (10.0.0.127) from 10.0.0.1 : 56(84) bytes of data. 
64 bytes from 10.0.0.1: icmp seq=0 ttl=255 time=1.290 msec 

64 bytes from 10 6: icmp seq=0 ttl=64 time=1.853 msec (DUP!) 
64 bytes from 10 47: icmp_seq=0 tt1=64 time=2.311 msec (DUP!) 
64 bytes from 10. 1: icmp_seq=1 tt1=255 time=382 usec 

64 bytes from 10 : icmp_seq=1 ttl=64 time=1.587 msec (DUP!) 
64 bytes from 10 47: icmp_seq=1 ttl=64 time=2.406 msec (DUP!) 
64 bytes from 10 l: icmp_seq=2 ttl=255 time=380 usec 

64 bytes from 10 6: icmp seq=2 ttl=64 time=1.573 msec (DUP!) 
64 bytes from 10 -47: icmp seq=2 tt1=64 time=2.394 msec (DUP!) 
64 bytes from 10 1: icmp_seq=3 tt1=255 time=389 usec 

64 bytes from 10.0.0.6: icmp_seq=3 ttl=64 time=1.583 msec (DUP!) 
64 bytes from 10.0.0.47: icmp seq=3 ttl=64 time=2.403 msec (DUP!) 
--- 10.0.0.127 ping statistics --- 

4 packets transmitted, 4 packets received, 

+8 duplicates, 0% packet loss 

round-trip min/avg/max/mdev = 0.380/1.545/2.406/0.765 ms 


此 处 ，4 个 传 出 的 回 显 请 求 报 文 被 发 送出 去 ， 我 们 看 到 了 12 个 应 答 。 这 个 行为 对 于 采用 
广播 地 址 是 非常 典型 的 : 所 有 接收 节点 必须 回应 。 因 此 ， 我们 看 到 序列 号 0、1、2 和 3, 但 
是 其 中 每 个 有 3 个 应 答 。 这 个 (DUP!) 符号 表示 回 显 应 答 中 包含 的 序列 号 字段 和 之 前 接收 
到 的 一 样 。 由 于 TTL 值 是 不 同 的 (255 和 64 )， 这 表明 不 同类 型 的 计算 机 正在 响应 。 

注意 这 个 过 程 (向 IPv4 的 广播 地 址 发 送 回 显 请 求 ) 能 用 于 快速 广播 本 主机 系统 的 ARP 
表 (参见 第 4 章 )。 这 些 系 统 响 应 回 显 请 求 报 文 ， 构 建 一 个 目的 是 请 求 发 送 者 的 回 显 应 答 报 
文 。 当 响应 的 目标 系统 位 于 同一 个 子 网 内 时 ， 将 会 触发 ARP 请 求 查找 请 求 发 送 者 的 链 路 层 
地 址 。 这 么 做 ，ARP 将 会 在 每 个 响应 者 和 请 求 发 送 者 之 间 交 换 。 这 也 导致 回 显 请 求 报 文 的 
发 送 者 学 习 所 有 响应 者 的 链 路 层 地 址 。 在 这 个 例子 中 ， 即 使 本 系统 没有 关于 地 址 10.0.0.1、 
10.0.0.6、10.0.0.47 的 链 路 层 地 址 映射 ， 在 广播 之 后 便 都 会 出 现在 ARP 表 中 。 向 发 送 到 广播 
地 址 的 请 求 回复 ICMP 应 答 报 文 是 可 选 的 。 默 认 情 况 下 ，Linux 系统 会 响应 ， 而 Windows XP 
系统 则 不 会 
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8.4.2 ”路 由 器 发 现 : 路 由 器 请 求 和 通告 (ICMPv4 类 型 9，10 ) 


在 第 6 章 ， 我 们 看 到 了 DHCP 是 如 何 被 一 个 主机 用 于 获取 IP 地 址 和 学 习 到 附近 存在 的 
路 由 器 的 。 我 们 提 到 的 另外 一 种 学 习 路 由 器 的 方式 是 路 由 器 发 现 (Router Discovery, RD). 
尽管 可 以 指定 为 IPv4 和 IPv6 主机 配置 但 是 由 于 DHCP 的 普及 ， 它 在 IPv4 中 并 没有 被 广 
泛 使 用 。 但 是 ， 目 前 它 被 指定 与 移动 IP 一 起 使 用 ， 因 此 我 们 简要 描述 一 下 。 这 个 IPv6 版 本 
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构成 了 IPv6 SLAAC 功能 的 一 部 分 (参见 第 6 章 )， 在 逻辑 上 是 IPv6 ND 的 一 部 分 。 因 此 ， 我 
们 在 8.5 节 更 为 广泛 的 ND 上 下 文 环 境 中 讨论 它 。 
IPv4 的 路 由 器 发 现 是 通过 采用 一 对 ICMPv4 信息 类 报 文 实现 的 [RFC1256] : 路 由 器 请 求 
(RS， 类 型 10 ) 和 路 由 器 通告 ( RA， 类 型 9 )。 通 告 由 路 由 器 通过 两 种 方法 发 送 。 首 先 ， 它 
们 定期 对 本 地 网 络 (使 用 TTL = 1 ) 的 所 有 主机 组 播 地 址 (224.0.0.1 ) 进行 组 播 ， 并 提供 给 
有 需要 的 主机 ， 它 们 通常 使 用 RS 报 文 进行 请 求 。 使 用 组 播 将 RS 报 文 发 送 到 所 有 路 由 器 组 
383) 播 地 址 上 (224.0.0.2 )。 路 由 器 发 现 的 主要 目的 是 让 一 台 主 机 学 习 到 它 所 在 的 本 地 子 网 中 的 
所 有 路 由 器 ， 因 此 它 能 够 从 中 选择 一 台 作 为 默认 路 由 。 它 也 被 用 于 发 现 那些 愿意 充当 移动 了 
代理 的 路 由 器 。 参 见 第 9 章 中 关于 本 地 网 络 组 播 中 的 详细 内 容 。 图 8-17 给 出 了 ICMPv4 RA 
报 文 格式 ， 其 中 包含 了 一 个 IPv4 地 址 列表 可 用 做 主机 的 默认 路 由 器 。 
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发 现 [RFC5944] 
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图 8-17 ICMPv4 路 由 器 通告 报 文 包含 了 一 个 IPv4 地 址 列表 可 用 作 下 一 跳 的 默认 路 由 。 优 先 水 平 允许 
网 络 操作 人 员 为 这 个 列表 安排 不 同 的 优先 级 ( 越 高 优先 级 越 大 )。 移 动 IPv4[RFC5944] 通过 扩 
展 增强 了 RA 报 文 ， 目 的 是 为 了 通告 MIPv4 移动 代理 以 及 被 通告 的 路 由 器 地 址 的 前 组 长 度 


在 图 8-17 中 ， 地 址 数 ( Number of Address) 字段 给 出 了 报 文中 路 由 地 址 块 的 个 数 。 每 个 

块 包含 了 一 个 IPv4 地 址 及 相应 的 优先 水 平 (preference level)。 地 址 条 目 大 小 (Address Entry 

Size) 字段 给 出 了 每 个 块 的 32 位 字数 (在 这 个 例子 中 是 2 )。 生 命 周 期 ( Lifetime) 字段 给 出 
了 地 址 列表 被 认为 是 有 效 的 秒 数 。 优 先 水 平 是 一 个 32 位 的 有 符号 二 进 制 补 码 整数 ， 其 值 越 
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大 代表 优先 级 越 高 。 默 认 的 优先 水 平 是 0， 特殊 值 0x80000000 表示 这 个 地 址 不 应 该 用 作 有 
效 的 默认 路 由 。 

RA 报 文 也 被 移动 耻 [RFC5944] 中 的 节点 用 于 定位 一 个 移动 ( 即 本 地 和 /或 外 地 ) 代理 。 
图 8-17 描述 了 一 个 路 由 器 通告 报 文 ， 其 中 包含 了 一 个 移动 代理 通告 扩展 。 这 个 扩展 遵循 传 
统 的 RA 信息 并 包含 一 个 值 为 16 的 类 型 (Type) 字段 ， 以 及 一 个 给 出 了 扩展 区 域 (不 包括 类 
型 和 长 度 字 段 ) 内 字 节 个 数 的 长 度 (Length) 字段 。 它 的 值 等 于 ( 6 + 4K)， 假 设 包 含 了 天 个 
地 址 。 序 列 号 字段 给 出 了 自从 初始 化 之 后 代理 产生 的 这 种 扩展 的 个 数 。 注 册 字 段 给 出 了 发 送 
代理 愿意 接受 MIPv4 注册 的 最 大 秒 数 ( 0xFFFF 的 表示 无 穷 大 )。 存 在 具有 以 下 含义 的 标志 
(Flag) 位 字段 : R (为 MIP 服务 所 需 的 注册 )，B (代理 太 忙 无 法 接受 新 注册 )，H (代理 愿意 
充当 本 地 代理 ),F (代理 愿意 充当 外 地 代理 )，M (支持 最 小 封装 格式 [RFC2004])，G (代理 
支持 封装 数据 报 的 GRE 隧道 )，r (保留 零 )，T (支持 反 向 隧道 [RFC3024])，U (支持 UDP 的 
隧道 [RFC3519]), X (支持 撤销 注册 [RFC3543]), I (外 地 代理 支持 区 域 注册 [RFC4857])。 

除了 移动 代理 通告 扩展 ， 还 有 一 个 扩展 已 经 被 设计 用 于 帮助 移动 节点 。 前 缀 长 度 扩展 
可 能 位 于 移动 代理 通告 扩展 之 后 ， 表 示 在 基本 路 由 器 通告 中 每 个 对 应 的 路 由 器 地 址 的 前 级 长 
度 。 其 格式 如 图 8-18 所 示 。 
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紧 随 移动 
代理 通告 
前 组 长 度 [M] 扩展 之 后 


图 8-18 ICMPv4 可 选 RA 前 组 长 度 扩展 给 出 了 报 文 中 基本 路 由 器 通告 部 分 中 YX 个 路 由 器 地 址 中 每 个 
的 显著 前 缀 位 数 。 如 果 移 动 代理 通告 扩展 存在 的 话 ， 这 个 扩展 紧 随 其 后 


在 图 8-18 中 ， 长 度 字 段 被 设置 为 等 于 N， 即 来 源 于 基本 RA 报 文中 的 地 址 数字 段 。 每 
个 8 位 的 前 级 长 度 (Prefix Length) 字段 给 出 了 在 本 地 子 网 中 使 用 的 路 由 器 地 址 (Router 
Address) 字段 (图 8-17 ) 对 应 的 位 数 。 这 个 扩展 能 被 移动 节点 用 来 确定 它 是 否 已 经 从 一 个 网 
络 移动 到 另 一 个 了 。 采 用 [RFC5944] 中 的 算法 2， 一 个 移动 节点 也 能 缓存 一 个 特定 链 路 上 可 
用 的 前 级 集合 。 如 果 网 络 前 级 集合 已 经 改变 ， 就 能 检测 到 是 移动 了 。 


8.4.3 ”本 地 代理 地 址 发 现 请 求 / 应答 (ICMPv6 类 型 144/145 ) 


[RFC6275] 定义 了 4 种 支持 MIPv6 的 ICMPv6 报 文 。 其 中 2 个 ICMPv6 报 文 用 于 动态 本 
地 代理 地 址 发 现 ， 另 外 2 个 用 于 重新 编号 和 移动 配置 。 当 一 个 MIPv6 节点 访问 一 个 新 的 网 络 
时 ， 它 使 用 本 地 代理 地 址 发 现 请 求 报 文 动态 地 发 现 一 个 本 地 代理 〈 参 见 图 8-19 )。 
15 16 31 


为 了 本 地 前 级 ， 报 文 被 发 送 到 o 
MIPv6 本 地 代理 的 任 播 地 址 。IPv6 的 源 


地 址 通常 是 移动 节点 从 当前 正在 访问 的 

网 络 上 获取 的 地 址 (参见 第 5 章 )。 愿 意 

为 给 定 节点 及 它 的 本 地 前 缀 充当 本 地 代 ”图 8-19 MIPv6 本 地 代理 主机 发 现 请 求 报 文 包含 的 标 
理 的 节点 会 发 送 一 个 本 地 代理 地 址 发 现 识 符 将 在 响应 中 返回 。 为 了 移动 节点 的 本 地 前 
应 答 报 文 (参见 图 8-20). 缀 ， 它 将 被 发 送 到 本 地 代理 的 任 播 地 址 







8 字 节 
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0 
8 字 节 
| 本 地 代理 地 址 | 
图 8-20 MIPv6 本 地 代理 地 址 发 现 应 答 报 文 包含 了 来 源 于 对 应 的 请 求 中 的 标识 符 ， 以 及 愿意 为 移动 节 
点 转发 数据 包 的 本 地 代理 的 一 个 或 者 多 个 地 址 


直接 提供 给 移动 节点 单 播 地 址 的 本 地 代理 地 址 ， 极 有 可 能 是 个 移交 地 址 。 这 些 报 文 用 于 
处 理 当 一 个 移动 节点 在 网 络 中 转换 但 其 HA 已 经 变化 了 的 情况 。 在 重新 建立 一 个 合适 的 HA 
之 后 ， 移 动 节点 可 能 会 初始 化 MIPv6 绑 定 更 新 (参见 第 5 章 )。 






8.4.4 移动 前 缀 请 求 /通告 (ICMPv6 类 型 146/147 ) 


移动 前 组 请 求 报 文 (参见 图 8-21) 是 当 一 个 节点 的 本 地 地 址 就 要 变 为 无 效 时 ， 用 于 从 一 
个 HA 处 请 求 一 个 路 由 前 缀 更 新 。 移 动 节点 包含 一 个 本 地 地 址 选项 (IPv6 目的 地 址 选项 ， 参 
见 第 5 章 )， 并 使 用 IPsec 保护 请 求 (参见 第 18 章 )。 
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图 8-21 ” 当 一 个 移动 节点 离开 去 请 求 一 个 本 地 代理 提供 一 个 移动 前 缀 通告 时 ， 
便 发 送 MIPv6 移动 前 级 请 求 报 文 


请 求 报 文 在 标识 符 字 段 中 包含 了 一 个 随机 值 ， 用 来 匹配 请 求 与 应 答 。 它 和 路 由 器 请 求 报 
文 类 似 , 但 是 发 送 给 一 个 移动 节点 的 HA， 而 不 是 本 地 子 网 。 在 这 个 报 文 的 通告 形式 中 ( 参 
见 图 8-22 )， 封 装 的 IPv6 数据 报 必 须 包 含 一 个 类 型 为 2 的 路 由 头 部 (参见 第 5 章 )。 标 识 符 
字段 的 值 和 请 求 报 文中 的 标识 符 值 一 样 。M ( Manged Address， 托管 地 址 ) 字段 表示 主机 应 
该 使 用 有 状态 的 地 址 配置 ， 并 避免 自动 配置 。O (Other, Hh) 字段 表示 一 个 有 状态 的 配置 
方法 提供 的 是 信息 而 不 是 地 址 。 通 告 中 包含 了 1 个 或 者 多 个 前 级 信息 选项 。 
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一 个 有 状态 配置 机 制 提供 的 。O 标志 表示 除了 地 址 之 外 的 其 他 信息 是 由 有 状态 的 机 制 提供 的 
移动 前 缀 通告 报 文 是 设计 用 来 通知 一 个 移动 中 的 节点 其 本 地 前 缀 已 经 改变 了 。 这 个 报 文通 
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常 是 使 用 IPsec 保护 的 (参见 第 18 BE), ERY FBO SCI BA SB 
级 信息 选项 使 用 了 [RFC4861] 描述 的 格式 ， 包 含 了 移动 节点 应 该 用 来 配置 其 本 地 地 址 的 前 级。 


8.4.5 移动 IPv6 快速 切换 报 文 (ICMPv6 类 型 154 ) 


MIPv6 的 一 个 变 体 为 MIPv6 定义 了 快速 切换 (fast handovers) [RFC5568]( 称 为 FMIPv6 )。 
当 一 个 移动 节点 从 一 个 网 络 的 接 入 点 ( AP) 移动 到 另 一 个 时 ， 它 指定 的 方法 可 以 改善 IP 层 的 
切换 延迟 。 这 是 通过 在 切换 发 生 之 前 预测 路 由 器 和 地 址 信息 来 完成 的 。 这 个 协议 涉及 对 所 谓 
的 代理 路 由 器 (proxy router) 的 发 现 ， 它 的 行为 类 似 于 普通 路 由 器 ， 但 是 移动 节点 在 切换 到 
一 个 新 的 网 络 时 需要 用 到 。 有 对 应 的 ICMPv6 代理 路 由 器 请 求 和 通告 报 文 (分 别称 为 RtSolPr 
和 PrRtAdv)。 基 本 的 RtSolPr 和 PrRtAdv 格式 如 图 8-23 所 示 。 
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代码 校 验 和 


图 8-23 ”用 于 FMIPv6 报 文 的 通用 ICMPv6 报 文 类 型 。 代 码 (Code) 和 子 类 型 (Subtupe) 字段 给 出 了 
更 深入 的 信息 。 请 求 报 文 使 用 代码 0 和 子 类 型 2， 可 能 包含 发 送 者 的 链 路 层 地 址 和 首选 的 下 
一 个 接 人 点 链 路 层 地 址 〈 如 果 知 道 的 话 ) 作为 选项 。 通 告 使 用 代码 0 ~ 5 和 子 类 型 3。 不 同 的 
代码 值 表 示 存 在 不 同 的 选项 、 通 告 是 否 被 请 求 了 、 前 缀 和 路 由 信息 是 否 已 经 改变 、DHCP 是 
否 需 要 处 理 


一 个 移动 节点 可 能 有 关于 它 将 来 使 用 的 AP 的 地 址 或 者 标识 符 的 信息 (例如 ,通过 “ 扫 
描 ”802.11 网 络 )。RtSolPr 报 文 使 用 代码 0 和 子 类 型 2， 同 时 必须 包含 至 少 一 个 选项 ， 即 新 
接 人 点 链 路 层 地 址 选项 。 这 是 用 于 指出 移动 节点 请 求 的 信息 是 关于 哪个 AP 的 。RtSolPr 报 文 
可 能 也 包含 一 个 链 路 层 地 址 选项 来 识别 源 ， 如 果 知 道 的 话 。 这 些 选项 使 用 了 IPv6 ND 选项 格 
式 ， 因 此 我 们 在 详细 探讨 ND 时 再 讨论 它们 。 


8.4.6 组 播 侦 听 查询 / 报告 / 完成 (ICMPv6 类 型 130/131/132 ) 


组 播 侦 听 发 现 (MLD) [RFC2710][RFC3590] 为 采用 IPv6 的 链 路 提供 了 组 播 地 址 管理 。 
它 和 IPv4 采 用 的 IGMP 协议 类 似 ， 在 第 9 章 中 有 描述 。 那 一 章 详细 地 介绍 了 IGMP 操作 和 
ICMPv6 报 文 的 使 用 。 此 处 我 们 描述 组 成 MLD (版 本 1) 报 文 的 格式 ， 包 括 组 播 侦 听 查询 、 
报告 和 完成 报 文 。 基 本 格式 如 图 8-24 所 示 。 这 些 报 文 被 发 送 时 其 IPv6 跳 数 限制 (Hop Limit) 
字段 值 为 1， 并 带 有 路 由 器 告警 逐 跳 IPv6 选项 。 

MLD 的 主要 目的 是 让 组 播 路 由 器 了 解 与 它们 相连 的 每 个 链 路 上 的 主机 使 用 的 组 播 地 址 。 
MLDv2 (版 本 2 组 播 侦 听 发 现 ， 在 下 一 节 描 述 ) 扩展 了 此 功能 ， 允 许 主 机 指定 它们 希望 (或 
不 希望 ) 接收 流量 的 特定 主机 。 组 播 路 由 器 发 送 两 种 形式 的 MLD 查询 报 文 : 一 般 ( general) 
的 查询 和 特定 于 组 播 地 址 ( multicast-address-specific) 的 查询 。 一 般 来 说 ， 路 由 器 发 送 查 询 
报 文 ， 主 机 采用 报告 响应 ， 或 者 是 响应 查询 ， 或 者 是 在 一 台 主 机 的 组 播 地 址 成 员 发 生变 化 时 
主动 提供 。 
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类 型 
(130, 131, 132) 
最 大 响应 延迟 ( 毫秒 ) 
通用 MLD 
格式 
(24 字 节 ) 


组 播 (组 ) 地 址 (128 位 ) 





图 8-24 ICMPv6 MLD 版 本 1 报 文 都 是 这 种 形式 。 查 询 (类 型 130 ) 都 是 通用 或 者 特定 组 播 地 址 的 。 
一 般 查 询 要 求 主 机 报告 它们 正在 使 用 哪个 组 播 地 址 ， 特 定 于 地 址 的 查询 用 于 确定 一 个 特定 
的 地 址 是 否 (仍然) 在 使 用 。 最 大 的 响应 时 间 是 主机 可 能 延迟 发 送 响应 查询 报 文 的 最 大 毫秒 
数 。 对 于 一 般 的 查询 和 针对 特定 报告 查询 的 组 播 地 址 ， 其 目的 组 播 地 址 为 0。 对 于 报告 (类 型 
131 ) 和 完成 报 文 (类 型 132 )， 它 将 分 别 包 含 和 报告 相关 的 地 址 或 者 不 再 感 兴趣 的 地 址 


最 大 响应 时 间 (Maximum Response Time) 字段 只 有 在 查询 时 是 非 零 的 ， 它 是 响应 查询 
主机 发 送 报告 可 能 推迟 的 最 大 毫秒 数 。 由 于 组 播 路 由 器 只 需要 知道 ， 至 少 有 一 台 主 机 对 发 往 
特定 组 播 地 址 的 流量 感 兴趣 (因为 链 路 层 组 播 支 持 允 许 路 由 器 不 必 为 每 个 目的 复制 报 文 )， 节 
点 可 以 随机 故意 地 拖延 它们 的 报告 ， 甚 至 完全 抑制 它们 〈 如 果 发 现 另 一 个 邻居 已 经 做 出 了 响 
应 )。 这 一 字段 提供 这 种 延迟 时 长 的 一 个 上 限 。 对 于 一 般 的 查询 和 路 由 器 在 报告 中 感 兴趣 的 
地 址 ， 组 播 地 址 (Multicast Address) 字段 为 0。 对 于 MLD 报告 报 文 (类 型 131 ) Al MLD 完 
成 报 文 (类 型 132 )， 它 分 别 包含 和 报告 相关 的 地 址 或 不 再 感 兴趣 的 地 址 。 


8.4.7 版 本 2 组 播 侦 听 发 现 (ICMPv6 类 型 143 ) 


[RFC3810] 定义 了 在 [RFC2710] 中 描述 的 MLD 功能 扩展 。 特 别 是 ， 它 定义 了 一 个 组 播 
侦 听 的 方式 来 指定 只 监听 一 个 特定 集合 的 发 送 者 (或 者 ， 排 除 一 个 特定 的 集合 )。 因 此 ， 它 
对 支持 源 特 定 组 播 (SSM; 参见 第 9 章 和 [RFC4604][RFC4607]) 非常 有 用 。 它 基本 上 是 对 
与 IPv4 一 起 使 用 的 IGMPv3 协议 在 IPv6 下 使 用 的 一 个 转换 ， 它 使 用 ICMPv6 来 管理 多 数 
组 播 地 址 。 因 此 ， 我 们 将 在 这 里 描述 报 文 格式 ， 但 组 播 地 址 动态 的 操作 将 在 第 9 章 中 介绍 。 
MLDv2 扩展 了 MLD 查询 报 文 ， 增 加 了 与 特定 来 源 相关 的 其 他 信息 ( 见 图 8-25 )。 报 文中 开 
始 的 24 个 字 节 和 MLD 格式 是 一 样 的 。 

最 大 响应 代码 (Maximum Response Code) 字段 指定 发 送 MLD 响应 报 文 之 前 允许 的 最 大 
时 间 。 这 个 字段 的 值 是 特殊 的 ， 因 此 其 解释 与 MLDv1 也 略 有 不 同 : 如 果 它 小 于 32 768， 则 
与 MLDvl 中 一 样 ， 最 大 的 响应 延迟 就 设置 为 该 值 (以 毫秒 为 单位 )。 如 果 该 值 等 于 或 大 于 
32 769， 字 段 使 用 图 8-26 所 示 的 格式 编码 一 个 浮 点 数 。 

在 这 种 情况 下 ， 最 大 响应 时 间 设 置 为 等 于 ((mant | 0x1000)<<(exp + 3)) 毫秒 。 采 用 这 个 
看 似 复 杂 的 编码 策略 的 原因 是 为 了 让 大 、 小 响应 延迟 值 都 能 编码 在 这 个 字段 中 ， 并 保留 一 
些 与 MLDv1 的 兼容 性 。 特 别 是 ， 它 可 以 仔细 调整 离开 延迟 ， 并 影响 报告 的 突 发 性 (参见 第 
9 章 )。 . 
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类 型 ( 130 ) 代码 (0 ) 


组 播 ( 组 ) (24 字 季 ) 


地 址 ( 128 位 ) 
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图 8-25 MLDv2 查询 报 文 格式 ， 它 与 MLD 版 本 1 报 文通 用 格式 兼容 ， 最 大 的 区 别 是 能 够 从 主机 感 兴 
趣 列表 中 限制 或 者 剔除 特定 的 组 播 源 


01 3456789ABCDEF 


图 8-26 当 最 大 响应 代码 字段 值 至 少 为 32 768 时 ，MLDv2 查询 报 文 使 用 的 浮 点 格式 。 在 这 些 情况 中 ， 
延迟 被 设置 为 ((mant | 0x1000)<<(exp + 3)) 毫秒 


一 般 查询 中 组 播 地 址 字段 设置 为 0。 对 于 一 个 特定 组 播 地 址 查询 或 特定 的 组 播 地 址 和 源 
查询 ， 它 被 设置 为 查询 的 组 播 地 址 。S 字段 指示 是 否 应 抑制 路 由 器 端 处 理 。 设 置 时 ， 它 表示 
任何 接收 的 组 播 路 由 器 ， 当 监听 到 一 个 查询 时 它 必 须 抑 制 正常 的 计时 器 更 新 计算 。 这 并 不 表 
示 ， 如 果 路 由 器 本 身 就 是 一 个 组 播 监听 者 的 话 ， 查 询 器 选举 或 正常 的 “主机 端 ” 处 理应 该 被 
抑制 。 
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如 果 设 置 了 QRV ( Querier Robustness Variable， 查 询 器 重 棒 性 变量 ) 字段 ， 它 将 包含 一 
个 不 超过 7 的 值 。 如 果 发 送 者 的 内 部 QRV 值 超过 7， 那 么 这 个 字段 应 设 为 0。 在 第 9 章 介绍 
的 鲁 棒 性 变量 能 够 根据 一 个 子 网 上 的 丢 包 率 来 微调 MLD 的 更 新 率 。QQIC ( Querier’s Query 
Interval Code， 查 询 器 查询 间隔 代码 ) 字段 编码 查询 时 间 间 隔 ， 如 图 8-27 所 示 。 


01 34567 


bt —| 
图 8-27 MLDv2 查询 器 查询 间隔 代码 编码 了 MLDv2 查询 之 间 的 时 间 间 隔 。 这 个 值 的 (未 编码 ) 版 


本 称 为 查询 器 查询 间隔 ， 且 是 以 秒 来 测量 的 。QQI 是 通过 下 面 的 方法 来 计算 的 : 如 果 
QQIC<128，QQI = QQIC; 否则 QQI = ((mant | 0x10)<<(exp + 3)) 


查询 时 间 间 隔 以 秒 为 单位 ， 它 从 QQIC 字段 按 如 下 方式 计算 得 到 : 如 果 QQICK<128, Af 
么 QQI=QQIC; 否则 ，QQI = ((mant | 0x10)<<(exp + 3))。 

源 个 数 ( Number of Sources) (N) 字段 表示 查询 中 源 地 址 个 数 。 对 于 一 般 的 查询 或 者 特 
定 的 组 播 地 址 查询 ， 此 字段 为 0。 对 于 特定 的 组 播 地 址 和 源 查 询 报 文 ， 它 不 为 0。 

MLDv2 报告 中 使 用 的 组 播 地 址 记录 (参见 图 8-28 和 图 8-29) 包含 对 IPv6 节点 源 地 址 过 
滤器 所 做 的 修改 (参见 第 9 章 关 于 组 播 在 这 种 过 滤器 操作 上 的 更 多 信息 ， 描 述 了 对 特定 接收 
主机 感 兴趣 或 者 不 感 兴 趣 的 发 送 主 机 集合 )。 
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图 8-28 MLDv2 报告 报 文 包含 了 一 组 组 播 地 址 记录 问 量 


记录 类 型 主要 可 以 分 为 三 类 : 当前 状态 (current state) 记录 ， 过 滤 模 式 变化 (filter mode 
change) 记录 和 源 列表 改变 (source list change) 记录 。 第 一 类 包括 MODE_IS INCLUDE (IS_ 
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IN) 和 MODE IS_ EXCLUDE (IS_EX) 类 型 ， 指 明 的 地 址 过 滤 模 式 对 于 指定 的 源 而 言 (其 中 
必须 至 少 存在 一 个 ) 分 别 是 “包括 ”或 “排除 ”。 过 滤 模 式 变 化 类 型 CHANGE _TO_INCLUDE 
(TO_IN) 或 CHANGE TO_EXCLUDE (TO _EX) 和 当前 状态 记录 是 类 似 的 ,， 但 当 有 变化 或 
者 不 需要 包含 一 个 非 空 的 源 列表 时 将 被 发 送 。 源 列表 改变 类 型 ， 当 过 滤器 的 状态 (包含 / 排 
BR) 不 变 而 只 有 源 列表 被 改变 时 ，ALLOW_NEW_SOURCES ( ALLOW) 和 BLOCK OLD 
SOURCES (BLOCK) 将 被 使 用 。 为 了 简化 了 MLDv2[RFC5790] 的 操作 ， 对 MLDv2 (和 
IGMPv3 ) 做 了 修改 ， 即 删除 了 EXCLUDE 模式 。 这 种 “ 轻 量 级 ”的 方法 ， 称 为 LW-MLDv2 
(和 LW-IGMPv3 )， 使 用 先前 定义 的 相同 报 文 格 式 ， 但 删除 了 很 少 使 用 的 要 求 组 播 路 由 器 保存 
附加 状态 的 EXCLUDE 指令 。 
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图 8-29 一 条 组 播 地 址 (组 ) 记录 。MLDv2 报告 报 文中 可 能 存在 多 个 这 样 的 记录 。 记 录 类 型 字段 
值 是 下 列 之 一 : MODE IS_INCLUDE, MODE IS EXCLUDE, CHANGE TO INCLUDE MODE, 
CHANGE TO EXCLUDE MODE, ALLOW_NEW_SOURCES, 或 BLOCK OLD SOURCES. 
LW-MLDv2 通过 删除 EXCLUDE 模式 简化 了 MLDv2。 辅 助 数据 长 度 ( Aux Data Len) 字段 包 
含 了 记录 中 的 辅助 数据 ， 以 32 位 字 为 单位 。 对 于 在 [RFC3810] 中 定义 的 MLDv2 而 言 ， 此 字 
段 必须 为 0， 表 示 没 有 辅助 数据 
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8.4.8 组 播 路 由 器 发 现 (IGMP 28a! 48/49/50, ICMPv6 类 型 151/152/153 ) 


[RFC4286] 描述 组 播 路 由 器 发 现 (Multicast Router Discovery，MRD )， 该 方法 定义 的 特 
殊 报 文 可 以 和 ICMPv6 和 IGMP 一 起 使 用 ， 用 来 发 现 能 够 转发 组 播 数据 包 和 它们 的 一 些 配置 
参数 的 路 由 器 。 最 初 的 想法 主要 是 和 “IGMP/MLD 侦 听 ”一 起 使 用 。IGMP/MLD 侦 听 是 一 
种 机 制 ， 主 机 和 路 由 器 (例如 ， 第 2 层 交 换 机 ) 以 外 的 系统 也 可 以 了 解 网 络 层 组 播 路 由 器 和 
感 兴趣 主机 的 位 置 。 我 们 将 在 第 9 章 IGMP 上 下 文中 详细 地 讨论 它 。MRD 报 文 发 送 时 总 是 
将 IPv4 的 TTL 或 IPv6 的 素数 限制 字段 设 为 1， 并 设 有 路 由 器 警告 选项 ， 可 能 是 如 下 类 型 之 
一 : 通告 (151 )， 请 求 (152 )， 或 终止 (153 )。 在 配置 的 时 间 间 隔 定 期 地 发 送 通告 ， 表 明 路 
由 器 愿意 转发 组 播 流 量 。 终 止 报 文 表明 要 终止 这 种 意愿 。 请 求 报 文 可 用 于 请 求 路 由 器 发 送 通 
告 报 文 。 通 告 报 文 格式 如 图 8-30 所 示 。 
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类 型 通告 间隔 
(IPv4: 0x30; IPv6: 151 ) ( 秒 ) 


校 验 和 





查询 间隔 (QQI ) 鲁 棒 性 变量 





图 8-30 MRD 的 通告 报 文 (ICMPv6 类 型 151 ; IGMP 类 型 48 ) 包含 说 明 多 长 时 间 发 送 主动 通告 的 通 
告 时 间 间 隔 ( 秒 )、 发 送 者 的 查询 间隔 ( QQI) Fl MLD 定义 的 鲁 棒 性 变量 。 发 送 者 的 IP 地 址 
就 是 用 来 指示 接收 者 能 够 转发 组 播 流 量 的 路 由 器 。 该 报 文 被 发 送 到 所 有 侦 听 者 的 组 播 地 址 
(IPV4,224.0.0.106; IPv6, ff02 ::6a) 


通告 报 文 从 路 由 器 的 耳 地 址 (IPv6 链 路 本 地 地 址 ) 发 送 到 所 有 侦 听 者 的 耳 地 址 : 
224.0.0.106 ( IPv4 ) 和 链 路 本 地 组 播 地 址 ff02 ::6a ( IPv6 )。 接 收 者 能 够 了 解 路 由 器 的 通告 间 
隔 和 MLD 参数 (QQI 和 QRV， 在 第 9 章 中 详细 介绍 )。 请 注意 ，QQI 值 是 查询 的 间隔 (以 秒 
th), 不 是 之 前 在 MLDv2 查询 中 描述 的 QQIC (编码 版 本 的 QQI 值 )。 

请 求 和 终止 报 文 格式 几乎 相同 ( 见 图 8-31 )， 只 有 类 型 字段 的 值 有 所 不 同 。 
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类 型 
(IPv4: 0x31, 0x32; 保留 (0) 校 验 和 
IPv6: 152, 153 ) 





图 8-31 ICMPv6 MRD 请 求 (ICMPv6 类 型 152; IGMP 类 型 49 ) 和 终止 (ICMP v6 类 型 153; IGMP 类 
型 50 ) 报 文 使 用 相同 的 格式 。MRD 报 文 将 IPv6 跳 数 限制 字段 或 者 IPv4 TTL 字段 值 设置 为 1， 
并 包含 路 由 器 警告 选项 。 请 求 被 发 送 到 所 有 路 由 器 的 组 播 地 址 (IPv4, 224.0.0.2; IPv6, ff02::2 ) 


图 8-31 显示 请 求 和 终止 报 文 的 格式 几乎 是 相同 的 。 请 求 报 文 请 求 一 个 组 播 路 由 器 发 送 
一 个 通告 报 文 。 这 样 的 报 文 被 发 送 到 所 有 路 由 器 地 址 224.0.0.2〈IPv4 ) 和 本 地 链 路 组 播 地 址 
fft02::2 (IPv6 )。 终 止 报 文 被 发 送 到 所 有 的 侦 听 者 IP 地 址 ， 表 示 发 送 路 由 器 不 再 愿意 转发 组 
播 流 量 了 。 


8.5 1IPv6 中 的 邻居 发 现 
IPv6 中 的 邻居 发 现 协 议 (有 时 简称 为 NDP 或 者 ND) [RFC4861] 将 路 由 器 发 现 和 由 
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ARP 提供 的 带 有 地 址 映射 功能 的 ICMPv4 重 定向 机 制 结合 在 一 起 。 它 也 被 指定 用 于 支持 移动 
IPv6。 与 ARP 和 IPv4 普遍 使 用 广播 地 址 (除了 路 由 器 发 现 ) 不 同 ，ICMPv6 广泛 使 用 组 播 地 
址 ， 在 网 络 层 和 链 路 层 中 都 使 用 。( 回 忆 第 2 章 和 第 5 章 ，IPv6 甚至 没有 广播 地 址 。) 

ND 被 设计 允许 在 同一 个 链 路 或 者 网 段 的 节点 〈 路 由 器 和 主机 ) 找到 彼此 ， 确 定 它们 之 
间 是 否 有 双向 连通 性 ， 确 定 一 个 邻居 是 否 变 得 不 合作 或 者 不 可 用 。 它 也 支持 无 状态 的 地 址 自 
动 配置 (参见 第 6 章 )。 所 有 的 ND 功能 都 是 由 网 络 层 或 者 之 上 的 ICMPv6 提供 的 ， 致 使 它 最 
大 限度 地 独立 于 底层 所 采用 的 链 路 层 技术 。 但 是 ，ND 并 不 倾向 于 采用 链 路 层 组 播 功 能 ( 参 
见 第 9 章 )， 也 正 是 这 个 原因 在 非 广 播 和 非 组 播 链 路 层 ( 称 为 非 广 播 多 路 访问 或 者 NBMA 链 
路 ) 上 的 操作 可 能 会 有 一 些 差别 。 

ND 中 两 个 主要 部 分 是 : 邻居 请 求 /通告 ( NS/NA)， 在 网 络 和 链 路 层 地 址 之 间 提 供 类 似 
于 ARP 的 映射 功能 ; 还 有 路 由 器 请 求 和 通告 (RS/RA)， 提 供 的 功能 包括 路 由 器 发 现 、 移 动 
IP 代理 发 现 、 重 定向 ， 以 及 对 一 些 自动 配置 的 支持 。ND 的 一 个 安全 变 体 SEND[RFC3971] 
通过 引入 额外 的 ND 选项 增加 了 认证 和 特殊 形式 的 寻 址 。 

ND 报 文 就 是 ICMPv6 报 文 ， 只 是 发 送 时 IPv6 的 跳 数 限制 字段 值 被 设置 为 255。 接 
收 者 通过 验证 进来 的 ND 报 文 有 这 个 值 ， 以 防止 被 非 本 链 路 上 的 发 送 者 尝试 发 送 假 冒 本 地 
ICMPv6 报 文 (这 样 的 报 文 到 达 时 其 值 会 小 于 255 ) 欺骗 。ND 报 文 可 以 携带 丰富 的 选项 。 首 
先 我 们 讨论 主要 的 报 文 类 型 ， 然 后 详 述 可 用 的 选项 。 


8.5.1 ICMPv6 路 由 器 请 求 和 通告 (ICMPv6 类 型 133，134 ) 


路 由 器 通告 (RA) 报 文 表明 附近 路 由 器 的 存在 及 其 功能 。 它 们 定期 被 路 由 器 发 送 ， 或 者 
是 响应 一 个 路 由 器 请 求 ( RS) 报 文 。RS 报 文 (参见 图 8-32) 用 于 请 求 链 路 上 的 路 由 器 发 送 
RA 报 文 。RS 报 文 被 发 送 到 所 有 路 由 器 组 播 地 址 ff02 ::2。 如 果 报 文 的 发 送 者 使 用 IPv6 地 址 ， 
而 不 是 未 指定 的 地 址 (在 自动 配置 过 程 中 
使 用 )， 则 应 该 包括 一 个 源 链 路 层 地 址 选 
项 。 对 于 这 样 的 报 文 ， 这 是 唯一 有 效 的 
选项 [RFC4861]。 

路 由 器 通告 (RA) 报 文 (参见 图 8-33 ) 
是 由 路 由 器 发 送 到 所 有 节点 的 组 播 地 址 
( FF02:: 1 ) 的 , 或 者 是 发 送 到 请 求 主机 的 ”图 8-32 ICMPv6 路 由 器 请 求 报 文 非常 简单 ， 但 是 通 
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单 播 地 址 一 一 如 果 该 通告 是 为 了 响应 一 个 常 包含 一 个 源 链 路 层 地 址 选项 (不 像 ICMPv4 
请 求 。RA 报 文通 知 本 地 主机 和 其 他 路 由 中 的 对 应 项 )。 假 如 链 路 中 使 用 了 一 个 不 常用 
器 关于 本 地 链 路 的 有 关 配 置 细 节 。 的 MTU 值 ， 那 么 它 可 能 包含 一 个 MTU 选项 


当前 跳 数 限制 ( Current Hop Limit) 
字段 指定 主机 发 送 IPv6 数据 报 的 默认 跳 数 限制 。 值 为 0 表示 发 送 路 由 器 并 不 关心 。 下 一 个 
字 节 包含 了 位 字段 数 ， 正 如 在 [RFC5175] 总 结 和 扩展 的 那样 。M (托管 ) 字段 表明 本 地 IPv6 
地 址 分 配 是 由 有 状态 的 配置 来 处 理 的， 主机 应 避免 使 用 无 状态 的 自动 配置 。O (其 他 ) 字段 
表示 其 他 有 状态 的 信息 ( 即 IPv6 地 址 以 外 的 ) 使 用 一 个 有 状态 的 配置 机 制 ( 见 第 6 章 )。H (本 
地 代理 ) 字段 表示 发 送 路 由 器 愿意 充当 一 个 移动 IPv6 节点 的 本 地 代理 。Pref (优先 级 ) 字段 
给 出 了 将 报 文 发 送 者 作为 一 个 默认 路 由 器 来 使 用 的 优先 级 层次 : 01， 高 ; 00， 中 CRU); 
11， 低 ; 10， 保 留 (未 使 用 )。 有 关 这 一 字段 的 更 多 细节 在 [RFC4191] 中 有 描述 。 当 和 实验 
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性 质 的 ND 代理 工具 [RFC4389] 配合 使 用 时 ， 将 使 用 P (代理 ) 标志 。 它 为 IPv6 提供 了 一 个 
类 似 代理 ARP 的 功能 ( 见 第 4 章 )。 
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mola Pot 路 由 器 生命 周期 


重 传 计 时 器 


图 8-33 一 个 ICMPv6 路 由 器 通告 报 文 被 发 送 到 所 有 节点 的 组 播 地 址 ( ff02 :: 1 )。 接 收 节点 检查 以 确 
定 跳 教 限制 字段 值 是 255， 并 确保 数据 包 尚未 通过 路 由 器 转发 。 报 文 包括 三 个 标志 : M (托管 
地 址 配置 )，O (其 他 有 状态 的 配置 ) MH (本 地 代理 ) 





路 由 器 生命 周期 (Router Lifetime) 字段 表示 发 送 路 由 器 可 以 作为 默认 下 一 跳 的 时 间 ， 
以 秒 计 。 如 果 它 被 设置 为 0， 发 送 路 由 器 不 应 该 用 作 默 认 路 由 器 。 此 字段 只 适用 于 使 用 发 
送 路 由 器 作为 默认 路 由 器 ， 它 不 会 影响 同一 个 报 文 中 的 其 他 选项 。 可 达 时 间 (Reachable 
Time) 字段 给 出 一 个 节点 到 达 另 一 个 节点 所 需 的 训 秒 数 ， 假 设 已 经 发 生 了 双向 通信 。 这 被 
邻居 不 可 达 检 测 (Neighbor Unreachability Detection) 机 制 使 用 ( 见 8.5.4 节 )。 重 传 计时 器 
(Retransmission Timer) 字段 规定 主机 延迟 发 送 连续 ND 报 文 的 时 间 ， 以 毫秒 为 单位 。 
此 报 文通 常 包 含 源 链 路 层 选项 (如 果 适 用 的 话 )， 如 果 链 路 中 使 用 了 可 变 长 度 的 MTU 则 
应 包含 MTU 选项 。 该 路 由 器 还 应 该 包括 前 级 信息 选项 ， 表 示 本 地 链 路 上 使 用 了 哪些 IPv6 前 
级 。 第 6 章 包 含 了 一 个 如 何 使 用 RS 和 RA 报 文 (例如 ， 参 见 图 6-24 和 图 6-25 ) 的 例子 。 


8.5.2 ICMPv6 邻居 请 求 和 通告 (ICMPv6 类 型 135，136 ) 


ICMPv6 中 的 邻居 请 求 ( NS) 报 文 (参见 图 8-34 )， 有 效 地 取代 了 IPv4 中 的 ARP 请 求 报 
文 。 其 主要 目的 是 将 IPv6 地 址 转换 为 链 路 层 地 址 。 但 是 ， 它 也 被 用 于 检测 附近 的 节点 是 否 
AA, 它们 是 否 可 以 双向 到 达 ( 即 节点 间 是 否 可 以 互相 通信 )。 当 用 于 确定 地 址 映射 时 ， 它 
被 发 送 到 目标 地 址 (Target Address) 字段 中 包含 的 IPv6 地 址 所 对 应 的 请 求 节 点 的 组 播 地 址 
(HR f02:: 1:f/104， 并 结合 请 求 IPv6 地 址 中 的 低 24 位 )。 关 于 如 何 使 用 请 求 节 点 组 播 寻 址 的 
更 多 细节 ， 请 参阅 第 9 章 。 当 这 个 报 文 被 用 来 确定 到 邻居 的 连接 性 时 ， 它 被 发 送 到 该 邻居 的 

398) IPv6 单 播 地 址 ， 而 不 是 请 求 节点 的 地 址 。 

NS 报 文 包 含 发 送 者 想 设法 学 习 的 链 路 层 地 址 对 应 的 IPv6 地 址 。 该 报 文 可 能 包含 源 链 路 
层 地 址 选项 。 当 请 求 是 被 发 送 到 一 个 组 播 地 址 时 ， 该 选项 必须 包含 在 使 用 链 路 层 寻 址 的 网 络 
中 ， 对 于 单 播 请 求 而 言 ， 该 选项 应 该 被 包含 。 如 果 报 文 的 发 送 者 使 用 未 指定 的 地 址 作为 源 地 
址 (例如 ， 在 重复 地 址 检测 期 间 )， 则 不 应 该 包括 该 选项 。 

ICMPv6 邻居 通告 (NA) 报 文 (参见 图 8-35) 和 IPv4 中 的 ARP 响应 报 文 的 目的 一 样 ， 
还 能 够 有 助 于 邻居 不 可 达 检 测 ( 见 8.5.4 节 )。 它 要 么 作为 NS 报 文 的 响应 被 发 送 ， 要 么 当 一 
个 节点 的 IPv6 地 址 变化 时 被 异步 发 送 。 它 要 么 被 发 送 到 请 求 节 点 的 单 播 地 址 ， 要 么 当 请 求 
节点 使 用 未 指定 的 地 址 作为 源 地 址 时 ， 它 被 发 送 到 所 有 节点 的 组 播 地 址 。 
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15 16 


Er ee 


目标 地 址 
( 正 被 请 求 的 PPv6 地 址 ) 







24 字 节 







选项 ( 如 果 有 的 话 ) 





图 8-34 ICMPv6 邻居 请 求 报 文 和 RS 报 文 类 似 ， 但 包含 一 个 目标 IPv6 地 址 。 这 些 报 文 被 发 送 到 请 求 
节点 组 播 地 址 以 提供 类 似 于 ARP 的 功能 ， 发 送 到 单 播 地 址 以 测试 到 其 他 节点 的 可 达 性 。 在 使 
用 低层 寻 址 的 链 路 上 ，NS 报 文 包含 源 链 路 层 地 址 选项 
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24 字 节 






目标 地 址 
( 正 被 请 求 的 IPv6 地 址 ) 






选项 ( 如 果 有 的 话 ) 


图 8-35 ICMPv6 邻居 通告 报 文 包含 以 下 标志 : R 表示 发 送 者 是 一 个 路 由 器 ，S$ 表示 通告 是 为 了 响应 一 
个 请 求 ，O 表示 该 报 文 的 内 容 应 覆盖 其 他 缓存 的 地 址 映射 。 目 标 地 址 字段 包含 报 文 发 送 者 的 
IPv6 地 址 (一般 ， 从 ND 请 求 中 请 求 节 点 的 单 播 地 址 )。 包 含 一 个 目标 链 路 层 地 址 选项 用 于 为 
IPv6 启用 类 似 的 ARP 功能 


R (路 由 器 ) 字段 表示 该 报 文 的 发 送 者 是 一 个 路 由 器 。 这 可 能 会 改变 ， 例 如 当 一 台 路 由 
器 不 再 是 路 由 器 ， 而 成 为 一 台 主 机 时 。S (请 求 ) 字段 表示 该 报 文 是 在 响应 先前 收 到 的 请 求 。 
这 个 字段 用 来 验证 已 经 取得 的 邻居 之 间 的 双向 连通 性 。O (A) 字段 表示 在 报 文中 的 信息 
应 覆盖 报 文 发 送 者 之 前 缓存 的 任何 信息 。 它 不 应 该 在 请 求 通告 、 任 播 地 址 或 请 求 代理 通告 中 
设置 ， 而 应 该 在 其 他 通告 (请 求 或 主动 ) 中 设置 。 

对 于 请 求 通告 ， 目 标 地 址 字段 就 是 正在 被 查找 的 IPv6 地 址 。 对 于 主动 通告 ， 它 是 已 经 
改变 的 链 路 层 地 址 对 应 的 IPv6 地 址 。 当 通告 是 通过 一 个 组 播 地 址 被 请 求 时 ， 此 报 文 必须 包 
含 支持 链 路 层 寻 址 的 网 络 的 目标 链 路 层 地 址 。 我 们 现在 来 看 一 个 简单 的 例子 。 
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例子 
在 这 里 我 们 看 到 ICMPv6 回 显 请 求 /应 答 与 ND 一 起 使 用 的 结果 。 发 送 者 是 一 台 启 用 了 
IPv6 的 Windows XP 系统 ， 在 附近 的 Linux 系统 上 捕获 数据 包 。 为 清晰 起 见 ， 有 些 行 已 被 隐藏 。 


C:\> ping6 -s fe80::210:18ff:fe00:100b fe80::211:11ff:fe6f:c603 


Pinging fe80::211:11ff£:fe6f:c603 
from fe80::210:18ff:fe00:100b with 32 bytes of data: 


Reply from fe80::211:11f£f:fe6f:c603: bytes=32 time<lms 
Reply from fe80::211:11ff:fe6f:c603: bytes=32 time<ims 
Reply from fe80::211:11ff:fe6f:c603: bytes=32 time<l1ms 
Reply from fe80::211:11ff:fe6f:c603: bytes=32 time<ims 


Ping statistics for fe80::211:11ff:fe6f:c603: 

Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), 
Approximate round trip times in milli-seconds: 

Minimum = Oms, Maximum = Oms, Average = Oms 


Linux# tcpdump -i eth0 -s1500 -vv -p ip6 
tcpdump: listening on eth0, 
link-type EN10MB (Ethernet), capture size 1500 bytes 


1 21:22:01.389656 fe80::211:11ff:fe6f£:c603 > ££02::1:££00:100b: 
[icmp6 sum ok] icmp6: neighbor sol: who has 
fe80::210:18ff:fe00:100b 
(sre lladdr: 00:11:11:6f:c6:03) 
(len 32, hlim 255) 
2 21:22:01.389845 fe80::210:18ff:fe00:100b > fe80::211:11f£:febf:c603: 
[icmp6 sum ok] icmp6: neighbor adv: tgt is 
fe80::210:18ff:fe00:100b(SO) 
(tgt lladdr: 00:10:18:00:10:0b) 
(len 32, hlim 255) 


3 21:22:02.390713 fe80::210:18ff:fe00:100b > fe80::211:11ff:fe6f:c603: 
[icmp6 sum ok] icmp6: echo request seq 18 
(len 40, hlim 128) 
4 21:22:02.390780 fe80::211:11f£:febf:c603 > fe80::210:18fFf:fe00:100b: 
[icmp6 sum ok] icmp6: echo reply seq 18 
(len 40, hlim 64) 
+ continues ... 


Windows XP 和 Linux 均 提 供 了 ping6 程序 (最 近 版 本 的 Windows 将 IPv6 功能 纳入 常规 
的 ping 程序 )。-s 选项 告诉 它 使 用 的 源 地 址 。 回 想 一 下 在 IPv6 中 一 个 主机 可 能 有 可 供 选 择 
的 多 个 地 址 ， 在 这 里 我 们 选择 了 一 个 链 路 本 地 地 址 fe80::211:11ff:fe6f:c603。 跟 踪 显 示 了 NS/ 
NA 交换 和 一 个 ICMP 回应 请 求 /应 答对 。 通 过 观察 可 知 所 有 ND 报 文 的 IPv6 跳 数 限制 字段 
值 为 2355，ICMPv6 回 显 请 求 和 回 显 应 答 报 文 使 用 的 值 为 128 或 64。 

NS 报 文 被 发 送 到 组 播 地 址 ff02::1:ff00:100b， 就 是 被 请 求 的 IPv6 地 址 (fe80::210:18ff:fe00: 
100b) 对 应 的 请 求 节点 的 组 播 地 址 。 我 们 看 到 请 求 节点 在 源 链 路 层 地 址 选项 中 还 包括 它 自 己 
的 链 路 层 地 址 00:11:11:6f:c6:03。 

NA 应 答 报 文 使 用 链 路 层 (和 1IP 层 ) 单 播 地 址 被 发 送 回 请 求 节 点 。 目 标 地 址 字段 包含 请 
求 报 文中 请 求 的 值 : fe80::210:18ff:fe00:100b。 此 外 ， 我 们 还 看 到 S 和 0 标志 字段 被 设置 ， 
表示 该 通告 为 了 响应 先前 的 请 求 ， 所 提供 的 信息 应 该 覆盖 其 他 任何 请 求 节点 可 能 缓存 的 信 
息 。R 标志 字段 并 未 设置 ， 表 示 响 应 的 主机 并 不 充当 路 由 器 。 最 后 ， 请 求 节点 包括 在 目标 链 
路 层 地 址 选项 中 最 重要 的 信息 : 请 求 节点 的 链 路 层 地 址 00:10:18:00:10:0b。 
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8.5.3 ICMPv6 反 向 邻居 发 现 请 求 /通告 (ICMPv6 2B 141/142 ) 


IPv6[RFC3122] 中 的 反 向 邻居 发 现 (Inverse Neighbor Discovery, IND) 功能 起 源 于 需要 
在 帧 中 继 网 络 中 确定 给 定 的 链 路 层 地 址 对 应 的 IPv6 地 址 。 它 类 似 于 反 向 的 ARP 协议 ， 主 要 
用 于 支持 IPv4 网 络 中 的 无 盘 计算 机 。 其 主要 功能 是 确定 一 个 已 知 的 链 路 层 地 址 对 应 的 网 络 








层 地 址 。 图 8-36 显示 了 IND 请 求 和 通告 报 文 的 基本 格式 。 
，IND 请 求 报 文 被 发 送 到 IPv6 层 的 ”0 15 16 31 
所 有 节点 的 组 播 地 址 ， 但 是 却 封装 在 
一 个 单 播 链 路 层 地 址 (正在 被 查找 的 那 ”| 或 142) 8 字 节 
个 ) os. abs re Es 
选项 和 目的 链 路 层 地 址 选项 。 它 可 能 ee 
也 包含 一 个 源 / 目标 地 址 列表 选项 和 / 
或 一 个 MTU 选项 。 8-36 ICMPv6 IND 请 求 (类 型 141 ) 和 通告 (类 型 142) 
报 文 的 基本 格式 相同 。 它 们 被 用 于 从 已 知 的 链 路 


ND 的 一 个 重要 特征 是 检测 在 同一 个 链 路 上 的 两 个 系统 什么 时 候 丢失 了 或 者 变 得 非 
对 称 了 ( 即 在 两 个 方向 上 均 不 可 用 )。 这 是 通过 邻居 不 可 达 检 测 (Neighbor Unreachability 
Detection, NUD) 算法 完成 的 。 它 被 用 于 管理 每 个 节点 上 的 邻居 缓存 (neighbor cache)。 邻 
居 缓 存 和 第 4 章 中 描述 的 ARP 缓存 类 似 , 它 是 一 个 (概念 上 ) 数据 结构 ， 用 于 保存 IPv6 到 
链 路 层 地 址 的 映射 信息 (这 些 信息 在 执行 到 链 路 邻居 的 IPv6 数据 报 直接 交付 时 需要 )， 以 及 
针对 映射 状态 的 信息 。 图 8-37 显示 了 它 如 何在 邻居 缓存 中 维护 条 目 。 








REACHABLE 


达到 最 多 尝试 次 数 
(MAX_UNICAST SOLICIT) 


发 送 NS 
PROBE 
每 RetransTimer 毫秒 重复 


超时 
(DELAY _ FIRST _ PROBE_TIME) 


图 8-37 ”邻居 不 可 达 检 测 帮助 维护 由 多 个 邻居 条 目 组 成 的 邻居 缓存 。 在 任何 时 间 ， 每 个 条 目 是 5 种 状 
态 中 的 一 种 。 对 连接 可 达 性 的 确认 是 通过 接收 邻居 通告 报 文 或 者 其 他 更 高 层 的 协议 信息 来 完 
成 的 。 主 动 证 据 包 括 主动 的 邻居 和 路 由 器 通告 报 文 
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每 个 映射 可 能 是 如 下 5 个 状态 中 的 一 种 : INCOMPLETE, REACHABLE, STALE, DELAY, 
PROBE。 图 8-37 所 示 的 转换 图 显示 的 初始 状态 是 INCOMPLETE 或 STALE。 当 一 个 了 Pv6 节点 
有 一 个 单 播 数据 报 需要 发 送 到 目的 地 时 ， 它 会 检查 其 目标 缓存 (destination cache)， 看 一 看 对 应 
于 目的 地 的 条 目 是 否 存在 。 如 果 存 在 且 目 的 地 是 在 链 路 上 的 ， 再 查看 邻居 缓存 ， 确 定 邻 居 状 态 
是 否 是 REACHABLE。 如 果 是 ， 使 用 直接 交付 方式 发 送 数据 报 ( 见 第 5 章 )。 如 果 没 有 邻居 缓存 
条 目 ， 但 目标 似乎 是 在 链 路 上 ，NUD 会 进入 INCOMPLETE 状态 ， 并 发 送 一 个 NS 报 文 。 成 功 
收 到 一 个 请 求 NA 报 文 便 可 以 确定 该 节点 是 可 达 的 ， 条目 进入 REACHABLE 状态 。STALE 状态 
对 应 于 目前 还 未 确认 的 无 效 条 目 。 当 一 个 条 目 之 前 是 REACHABLE 状态 但 已 有 一 段 时 间 没 有 
更 新 ， 或 者 收 到 主动 报 文 时 (例如 ， 一 个 节点 改变 其 地 址 并 发 送 主动 NA 报 文 )， 它 就 进入 这 
个 状态 。 这 些 情况 表明 ， 有 可 能 是 可 达 的 ,但 仍 需 要 一 个 有 效 的 NA 来 确认 。 

其 他 状态 DELAY 和 PROBE 是 临时 状态 。DELAY 被 用 于 当 一 个 数据 包 已 经 被 发 送 了 ， 
但 ND 目前 尚 无 证 据 表 明 可 能 是 可 达 的 情况 。 该 状态 给 上 层 协议 一 个 机 会 来 提供 更 多 的 证 
据 。 如 果 在 DELAY_FIRST_PROBE_TIME $h (常数 ) 后 仍然 没有 接收 到 证 据 ， 状 态 将 会 改 
变 到 PROBE。 在 PROBE 状态 ，ND 会 定期 发 送 NS 报 文 (每 RetransTimer 毫秒 ， 常 数 默 认 
值 RETRANS_TIMER 等 于 1000 )。 如 果 在 发 送 MAX UNICAST_SOLICIT ( 预 设 为 3) 个 
NS 报 文 后 还 未 收 到 任何 证 据 ， 就 应 该 删除 该 条 目 。 


8.5.5 ”安全 邻居 发 现 


SEND (安全 邻居 发 现 ) [RFC3971] 是 一 组 特殊 的 增强 功能 ， 旨 在 为 ND 报 文 提供 额外 的 
安全 性 。 这 是 为 了 帮助 抵制 各 种 欺骗 攻击 ， 其 中 一 台 主 机 或 路 由 器 可 能 会 伪装 成 另 一 个 (更 
多 细节 见 第 18 章 、8.6 节 和 [RFC3756])。 特 别 是 在 响应 NS 报 文 时 ， 它 防止 节点 伪装 成 其 他 
节点 。SEND 不 使 用 IPsec ( 见 第 18 章 )， 它 有 自身 的 特殊 机 制 。 这 种 机 制 也 可 用 于 确保 安全 
的 FMIPv6 切换 [RFC5269]. 

SEND 在 一 套 假设 的 框架 中 操作 。 首 先 ， 每 个 具备 SEND 的 路 由 器 有 一 个 证 书 
(certificate) 或 密码 认证 ， 它 可 以 用 来 证 明 一 台 主 机 的 身份 。 接 下 来 ， 每 个 主机 还 配备 了 一 个 
信任 锚 (trust anchor) 一 一 配置 信息 可 以 用 来 验证 证 书 的 有 效 性 。 最 后 ， 每 个 节点 在 配置 它 
将 使 用 的 IPv6 地 址 时 ， 将 会 生成 一 个 公 钥 / 私 钥 对 。 第 18 章 将 对 证 书 、 信 任 锚 、 密 钥 对 以 
及 其 他 相关 的 安全 技术 进行 详细 介绍 。 


8.5.5.1 密码 生成 地 址 

也 许 SEND 最 有 趣 的 特征 是 使 用 完全 不 同类 型 的 称 为 密码 生成 的 地 址 (Cryptographically 
Generated Address, CGA) [RFC3972][RFC4581][RFC4982] 的 IPv6 地 址 。 这 种 类 型 的 地 址 是 
基于 节点 的 公 钥 信息 ， 从 而 将 地 址 和 节点 证 书 关联 起 来 。 因 此 ， 拥 有 相应 的 私 钥 的 节点 或 地 
址 的 所 有 者 能 够 证 明 它 是 一 个 特定 CGA 的 授权 用 户 。CGA 也 编码 与 它们 相关 联 的 子 网 前 缀 ， 
因此 它们 不 能 被 轻易 地 从 一 个 子 网 转移 到 另 一 个 子 网 。 这 种 做 法 与 通常 分 配 地 址 的 方法 完全 
不 同 。 

将 一 个 64 位 的 子 网 前 组 和 一 个 特殊 构造 的 接口 标识 符 相 “或 "， 便 生成 了 一 个 IPv6 
CGA, CGA 接口 标识 符 是 通过 一 个 称 为 Hashl 的 安全 散 列 函数 (secure hash function) 计 
算出 来 的 (被 认为 难以 反 转 的 散 列 函数 ， 参 见 第 18 章 )， 它 的 输入 是 节点 的 公 钥 和 一 个 特殊 
的 CGA 参数 数据 结构 。 这 些 参 数 也 被 用 来 作为 男 一 个 安全 散 列 函数 Hash2 的 输入 ， 它 提供 
了 散 列 扩展 (hash extension) 技术 ， 能 有 效 地 扩展 散 列 函数 的 输出 位 数 ， 进 而 提高 其 安全 
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性 ( 即 生成 一 个 不 同 的 输入 但 却 有 相同 散 列 值 的 强度 ) [A03][RFC6273] CGA 技术 允许 自动 
生成 地 址 所 有 者 的 公 钥 ， 所 以 这 种 方法 可 以 在 没有 公 负 基础 设施 ( public key infrastructure, 
PKI) 或 其 他 可 信任 的 第 三 方 下 工作 。 

CGA 参数 数据 结构 如 图 8-38 所 示 。 伪 随机 序列 ( Modifier) 字段 初始 化 一 个 随机 值 ， 碰 
撞 计 数 (Collision Count) 字段 初始 化 为 0。 这 个 结构 包括 一 个 扩展 字段 (Extension Field) 可 
供 未 来 使 用 [RFC4581]。 


0 15 16 31 


Vera Stay e Hashl: 最 上 面 的 64 位 安全 散 列 函数 
的 所 有 字段 值 ,包括 在 计算 Hash2 时 
子 网 前 级 发 现 的 最 终 伪 随机 序列 值 。 





(8 字 节 ) 
碰撞 计数 pm 
(可 变 的 ) 








Hash2: 最 上 面 的 112 位 的 安全 散 列 函 
数字 段 值 , 其 中 子 网 前 级 和 磁 撞 计数 为 
零 。 通 过 增加 伪 随 机 序列 字段 来 重新 计 


| 和 
扩展 字段 ty 算 Hash2, 直到 最 初 ( 16*Sec ) 位 变 为 





(可 选 ， 可 变 的 ) 0 为 止 。 





CGA 参数 





子 网 前 缀 ( 64 位 ) Sec (3 位 ) Hash! 值 ( 59 位 ) 


U=0/ 
Gt 


CGA 





图 8-38 ”用 来 计算 CGA 的 SEND 方法 。CGA 参数 数据 结构 可 用 作 两 个 加 密 散 列 函数 Hashl 和 Hash2 
的 输入 。Hash2 值 必须 有 ( 16*Sec) 个 初始 0 位 ， 其 中 Sec 是 一 个 3 位 的 参数 。 到 Hash2 适 
当 计算 时 ， 才 改变 伪 随 机 序列 字段 。 结 果 值 被 用 来 计算 Hash1， 并 和 Sec 与 子 网 前 缀 结合 用 
来 生成 CGA 


一 个 称 为 Sec 的 3 位 无 符号 参数 将 影响 该 方法 对 数学 破解 的 抵御 力 (采用 了 安全 散 列 函 
数 [RFC4982])， 以 及 计算 中 的 计算 复杂 性 (在 Sec 值 中 它们 是 指数 的 )。IANA 为 Sec 值 维护 
一 个 注册 表 [SI] MA Sec 值 ，Hashl 和 Hash2 函数 在 相同 的 CGA 参数 块 进行 操作 。 该 地 
址 所 有 者 首先 为 伪 随 机 序列 字段 选择 一 个 随机 值 ， 将 子 网 前 缀 字段 看 作 0， 再 计算 Hash2 的 
值 。 结 果 需 要 有 ( 16*Sec) 个 初始 0 位 ， 所 以 修改 输入 将 伪 随 机 序列 字段 递增 1， 并 重新 计 
算 Hash2 直到 条 件 满足 为 止 。 这 种 计算 的 时 间 复 杂 度 为 0(2”)， 并 随 着 Sec 的 增加 代价 会 
更 高 。 但 是 ， 只 有 当 最 初创 建 地 址 时 ， 这 种 计算 才 是 必需 的 。 

一 旦 找到 适当 伪 随 机 序列 字段 ， 便 用 59 位 的 Hashl 值 形成 接口 标识 符 的 低 59 位 。 前 
3 位 构成 3 位 Sec 值 ，6 ~ 7 (EE) 位 包含 两 个 0 位 (对 应 于 第 2 章 中 描述 的 u 和 g 地 址 )。 
如 果 该 地 址 被 发 现存 在 冲突 (例如 ， 使 用 第 6 章 描述 的 重复 地 址 检测 )， 递 增 碰撞 计数 字段 ， 
并 重新 计算 Hash1。 碰 撞 计 数值 的 增长 是 不 允许 超过 2 的 。 由 于 地 址 冲突 在 开始 时 是 不 常见 
的 ， 当 多 个 这 样 的 冲突 出 现时 应 考虑 是 否 配 置 错误 或 遭 到 了 攻击 。 一 旦 所 有 必要 的 计算 完成 
了 ， 通 过 连接 子 网 前 级 ，Sec 值 以 及 Hashl 值 便 能 形成 CGA。 需 要 注意 的 是 ， 如 果子 网 前 
缀 改变 了 ， 只 需要 重新 计算 Hashl ， 因 为 伪 随 机 序列 字段 值 仍然 保持 不 变 。( 对 替代 CGA 的 
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方法 感 兴趣 的 读者 应 该 看 看 [RFC5535]， 它 摘 述 了 基于 散 列 的 地 址 (hash-based address), 或 
HBA. HBA 用 在 一 个 稍微 不 同 的 环境 中 的 多 前 缀 多 宿主 主机 中 ， 并 使 用 了 计算 复杂 度 较 低 
的 不 同 加 密 形 式 ， 当 然 也 定义 了 HBA-CGA 兼容 选项 ,) 

到 目前 为 止 我 们 已 经 看 到 CGA 是 如 何 产生 的 ,但 还 不 知道 如 何 用 于 安全 中 。 注 意 任 
何人 都 可 以 生成 一 个 CGA， 只 要 有 子 网 前 缀 、Sec 值 和 自己 的 (或 别人 的 ) AH. AT 
保 CGA 格式 完好 ， 并 使 用 了 适当 的 子 网 前 级 ， 它 必须 经 过 验证 ， 这 一 过 程 称 为 CGA 验证 
(CGA verification)。 一 个 验证 需要 CGA 和 CGA 参数 的 知识 。 验 证 过 程 需要 确保 满足 如 下 条 
件 : 碰撞 计数 不 大 于 2，CGA 子 网 前 级 和 CGA 参数 中 的 前 级 匹配 ， 从 CGA 参数 计算 出 的 
Hashl 需要 和 CGA 的 接口 标识 符 部 分 匹配 (其 中 开始 的 3 位 、 第 6 位 和 第 7 位 “不 需要 关 
心 ”)， 通过 值 为 0 的 子 网 前 组 (Subnet Prefix) 和 碰撞 计数 (Collision Count) 字段 以 及 CGA 
参数 计算 出 来 的 Hash2 值 应 该 有 ( 16*Sec) 个 初始 的 0 位 。 如 果 这 些 检查 都 是 成 功 的 ， 就 是 
一 个 对 应 于 子 网 前 级 的 合法 CGA。 这 个 计算 最 多 涉及 两 个 散 列 函数 ， 这 是 远 远 比 地 址 生成 
过 程 简单 的 。 

验证 CGA 正在 被 其 授权 地 址 所 有 者 使 用 ， 这 称 为 签名 验证 (signature verification), a 
有 者 形成 了 一 个 类 型 报 文 ， 并 附 上 一 个 CGA 签名 ， 该 签名 是 使 用 CGA 中 的 公 钥 及 其 对 应 
私 钥 的 知识 计算 出 来 的 。 通 过 将 一 个 特殊 的 128 位 类 型 标签 和 报 文 结 合 起 来 ， sees 
个 数据 块 。 使 用 一 个 RSA 签名 ( RSASSA-PKCS1-v1_5 [RFC3447])， 并 结合 公 钥 (从 CGA 
参数 提取 )、 数 据 块 和 签名 作为 参数 来 验证 CGA 的 所 有 权 。 一 般 来 说 ， 只 有 在 CGA 验证 和 
签名 验证 过 程 都 顺利 完成 时 ，CGA 及 其 用 户 才 被 认为 是 合法 的 。 

使 用 ICMPv6 报 文 和 6 个 在 [RFC3971] 中 定义 的 选项 来 处 理 CGA 和 验证 。RFC 还 定义 
了 2 个 IANA 托管 的 注册 表 ， 用 来 保存 信任 销 选 项 中 的 名 称 类 型 (Name Type) 字段 和 证 书 
选项 中 的 证 书 类 型 ( Cert Type) 字段 ( 见 8.5.6.13 节 )。[RFC3972] 定义 了 CGA 报 文 类 型 注 
册 表 ， 采 用 在 [RFC3971] 中 定义 的 128 位 值 (其 他 值 是 在 SEND 之 外 定义 使 用 的 ) 0x086FC 
A5E10B200C99C8CE00164277C08。Sec 的 注册 值 在 [RFC4982] 中 定义 , 但 目前 只 提供 值 0、1、 
2， 分 别 对 应 于 在 Hash2 函数 中 使 用 的 SHA-1 安全 散 列 函数 使 用 的 0、16 或 32 个 初始 0 位。 
在 [RFC4581] 中 定义 的 扩展 格式 支持 TLV 编码 ， 可 用 于 未 来 标准 的 扩展 ， 但 到 目前 为 止 只 
定义 了 一 个 [RFC5535]。 我 们 现在 将 描述 两 个 与 SEND 一 起 使 用 的 ICMPv6 报 文 ， 等 我 们 在 
下 一 节 讲 完 所 有 的 ICMPv6 选项 才 讨 论 这 些 选 项 。 


8.5.5.2 ”证 书 路 径 请 求 /通告 (ICMPv6 类 型 148/149 ) 

SEND 定义 了 请 求 和 通告 报 文 用 来 帮助 主机 确定 构成 一 个 证 书 路 径 的 证 书 。 这 被 主机 用 
来 验证 路 由 器 通告 的 真实 性 。 图 8-39 显示 
了 请 求 报 文 。 

证 书 路 径 请 求 报 文 包含 一 个 随机 标识 
4 (Identifier) 字段 用 来 匹配 请 求 和 通告 。 
组 件 字段 值 提供 了 一 个 索引 以 表示 请 求 者 
感 兴趣 的 证 书 路 径 中 的 点 。 如 果 需 要 整个 





图 8-39 证 书 路 径 请 求 报 文 。 发 送 者 通过 由 组 件 


; ( Component) 字段 值 提供 的 位 置 索引 来 请 
路 径 中 的 证 书 ， 这 个 值 被 设置 为 全 1 ( 值 求 一 个 特定 的 证 书 。 值 65535 表示 需要 路 


65535 ) 。 这 个 报 文 可 能 包含 一 个 信任 锚 选 径 中 的 所 有 证 书 ， 其 中 该 路 径 的 根 身 份 在 
项 (参见 8.5.6.12 节 )。 第 18 章 详 细 描 述 了 附加 信任 锚 选 项 中 给 定 
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证 书 和 证 书 路 径 。 

图 8-40 显示 的 证 书 路 径 通告 报 文 提供 了 在 一 个 多 组 件 通告 中 表示 一 个 组 件 〈 证 书 ) 的 方 
法 。 这 些 报 文 为 了 响应 一 个 请 求 而 发 送 ， 或 由 具备 SEND 功能 的 路 由 器 定期 发 送 。 当 为 了 响 
应 请 求 而 发 送 报 文 时 ， 目 的 IPv6 地 址 是 接收 者 的 被 请 求 节点 组 播 地 址 。 
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图 8-40 请 求 路 径 通告 报 文 。 发 送 者 通过 由 组 件 字段 值 提供 的 位 置 索引 来 请 求 一 个 特定 的 证 书 。 值 
65535 表示 需要 所 有 根植 在 一 个 附加 信任 锚 选 项 中 给 定 身份 的 路 径 中 的 证 书 


标识 符 字段 持 有 在 相应 的 请 求 报 文 中 收 到 的 值 。 针 对 发 送 到 所 有 节点 组 播 地 址 的 主动 通 
告 报 文 ， 该 值 被 设置 为 0。 所 有 组 件 字段 表示 在 整个 证 书 路 径 中 的 组 件 总 数 ， 包 括 信 任 锚 。 
需要 注意 的 是 推荐 用 一 个 单独 的 通告 报 文 来 避免 分 片 ， 那么 这 样 的 报 文 只 包含 一 个 单一 的 组 
件 。 组 件 字 段 给 出 了 在 证 书 路 径 中 相关 证 书 的 索引 (提供 一 个 附加 的 证 书 选 项 )。 在 一 个 N 
个 组 件 的 证 书 路 径 中 发 送 通告 的 推荐 顺序 是 (N-1，N-2,，…，0 )。 组 件 入 不必 被 发 送 ， 因 
为 它 已 经 在 信任 锚 中 。 


8.5.6 ICMPv6 邻居 发 现 选 项 


正如 IPv6 家 族 中 的 许多 协议 ， 它 定义 了 一 套 标准 协议 头 部 ， 还 包含 了 一 个 或 多 个 选项 。 
ND (邻居 发 现 ) 报 文 可 能 包含 零 个 或 多 个 选项 ， 一 些 选项 可 以 出 现 多 次 。 但 是 ， 对 于 某 些 报 
文 而 言 ， 有 些 选项 是 必需 的 。 图 8-41 给 出 了 AT z 
ND 选项 的 通用 格式 。 


0 
所 有 的 ND 选项 以 8 位 类 型 和 8 位 长 度 字 (8 位 ) (8 位 ) 





段 开始 ， 支 持 长 度 可 变 的 选项 ， 最 大 到 255 字 基于 类 型 的 内 容 

节 。 选 项 被 填充 以 形成 8 字 节 边界 ， 长 度 字 段 (可 变 ) 

给 出 了 选项 的 总 长 度 ， 以 8 字 节 为 单位 。 类 型 ”图 8-41 ND 选项 的 长 度 是 变化 的 ， 并 以 一 个 通 
和 长 度 字 段 包含 在 长 度 字段 的 值 中 ， 最 小 值 为 . ”用 的 TLV 布局 开始 。 长 度 字段 给 出 了 
1。 表 8-5 给 出 的 列表 包含 了 在 2011 年 年 中 定 选项 的 总 长 度 ， 以 8 字 节 为 单位 ( 包 
义 的 25 个 标准 选项 (加 上 实验 值 )。 正 式 列 表 含 类 型 和 长 度 字段 ) 


可 以 在 [ICMP6TYPES] 中 找到 。 
表 8-5 IPv6 ND 选项 类 型 、 定 义 参考 、 用 途 和 注释 


类 型 用 途 | 注释 
1 发 送 者 的 链 路 层 地 址 ; 与 NS 、RS 及 RA 报 文 一 起 使 用 
2 目标 链 路 层 地 址 ; 与 NA 及 定向 报 文 一 起 使 用 
3 一 个 IPv6 BRA HOE; 与 RA 报 文 一 起 使 用 
4 原始 IPv6 报 文 的 部 分 ; 与 重 定向 报 文 一 起 使 用 
5 


推荐 的 MTU; 与 RA 报 文 、IND 通告 报 文 一 起 使 用 
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类 型 
6 
7 


8 


9 


31 


NMBA 捷径 限制 


邻居 通告 确认 


RA 标志 扩展 
[eg [cam | 
DNS 搜索 列表 | [RFC6106] 
RECATAT] 





( BE ) 
用 途 /注释 
“捷径 尝试 ”的 跳 数 限制 ; 与 NS 报 文 一 起 使 用 
主动 RA 报 文 的 发 送 间 隔 ; 与 RA 报 文 一 起 使 用 
成 为 一 个 MIPv6 HA 的 优先 级 和 生命 周期 ; 与 RA 报 文 一 


起 使 用 (设置 也 位 ) 


主机 地 址 ; 与 IND 报 文 一 起 使 用 

目标 地 址 ; 与 IND 报 文 一 起 使 用 

基于 密码 的 地 址 ; 与 安全 邻居 发 现 报 文 (SEND) 一 起 使 用 
主机 签名 的 证 书 (SEND) 

ko ik la) (SEND) 

反 重 放 随机 数 (SEND) 

指示 证 书 类 型 (SEND) 

编码 一 个 证 书 (SEND) 

移交 或 者 NAR 地 址 ; 与 FMIPv6 PrRtAdv 报 文 一 起 使 用 
想 要 的 下 一 个 接 入 点 或 者 移动 节点 的 地 址 ; 与 EMIPv6 


RtSolPr 或 者 PrRtAdv 报 文 一 起 使 用 


告诉 移动 节点 下 一 个 有 效 的 CoA; 与 RA 报 文 一 起 使 用 
路 由 前 缀 /首选 的 路 由 器 列表 

DNS 服务 器 的 IP 地 址 ; 添加 到 RA 报 文 

扩展 RA 标志 的 空间 

FMIPv6 一 一 使 用 SEND 请 求 密 钥 

FMIPv6 一 一 使 用 SEND 应 答 密 钥 

DNS 域 搜索 名 称 ; 添加 到 RA 报 文 中 

[RFC3692] 类 型 的 实验 1/2 


8.5.6.1 源 / 目标 链 路 层 地 址 选项 (类 型 1，2 ) 
每 当 在 一 个 支持 链 路 层 选 址 的 网 络 中 使 用 时 ， 源 链 路 层 地 址 选项 〈 类 型 1， 参 见 图 8-42 ) 
就 应 该 被 包含 在 ICMPv6 RS 报 文 、NS 报 文 和 
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RA 报 文中 。 它 指定 了 一 个 和 报 文 相关 的 链 路 
类 型 
层 地 址 。 对 于 含有 多 个 地 址 的 节点 可 能 包含 上 
述 的 多 个 选项 。 链 路 层 地 址 


当 响 应 一 个 组 播 请 求 时 ， 采 用 类 似 格 式 的 
目标 链 路 层 地 址 选项 必须 包含 在 NA 报 文中 。 
这 个 选项 通常 包含 在 重 定向 报 文中 (之 前 讨论 
的 ), 但 当 在 一 个 NBMA 网 络 上 操作 时 则 必须 


被 包含 在 这 样 的 报 文中 。 


8.5.6.2 


前 级 信息 选项 (类 型 3 ) 


(可 变 ) 


图 8-42 W (类 型 1) 和 目标 (类 型 2 ) 链 路 层 
地 址 选项 。 长 度 字 段 值 给 出 了 整个 选 
项 的 长 度 ， 包 括 地 址 ， 以 8 字 节 为 单 
位 (例如 ， 一 个 IEEE 以 太 网 类 型 地 址 
的 长 度 字 段 值 应 该 为 1 ) 


在 RA 报 文 和 移动 前 缀 通告 报 文中 提供 的 前 级 信息 选项 ( PIO) 表示 链 路 上 节点 的 IPv6 
地 址 前 缀 和 (在 某 些 情况 下 ) 完整 的 IPv6 地 址 (参见 图 8-43 )。 在 多 个 前 缀 或 者 地 址 被 报告 
的 情况 下 ， 在 单个 报 文中 可 能 包含 多 个 该 选项 的 拷贝 。 路 由 器 应 该 包含 它 使 用 的 每 个 前 缀 的 
PIO, K R 位 字段 设置 为 1 表示 前 组 (Prefix) 字段 包含 发 送 路 由 器 的 整个 (entire) 全 局 IPv6 
地 址 ， 而 不 只 是 将 前 缀 中 的 剩余 位 设置 为 0 或 者 是 它 的 本 地 链 路 地 址 (在 所 包含 的 IPv6 数据 
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报 的 源 IP Hahk ( Source IP Address) 字段 中 )。 这 对 移动 IPv6 本 地 代理 发 现 将 非常 有 用 ， 发 
送 路 由 器 通告 的 本 地 代理 必须 包含 这 个 选项 ， 其 中 至 少 为 一 个 前 级 设置 R 位 字段 。 
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31 
J 前 缀 长 度 保留 1 (0) 


有 效 生 命 周 期 ( 秒 ) 








首选 生命 周期 ( 秒 ) 





保留 2(0) 


前 级 
(128 位 ) 


8-43 ”前 级 信息 选项 包含 一 个 在 本 地 网 络 中 使 用 的 IPv6 地 址 前 缀 。 如 果 设 置 了 A 位 字段 ， 它 将 为 主 
机 提供 可 用 于 地 址 自动 配置 的 前 级 。L 位 字段 表示 在 “在 链 路 上 ”判定 中 允许 使 用 该 前 缀 。R 
位 字段 表示 所 包含 的 前 缀 是 发 送 路 由 器 的 整个 全 局 IPv6 地 址 


前 缀 长 度 字段 给 出 在 配置 中 被 视 为 有 效 的 前 组 字段 中 的 位 数 ( 多 达 128 位 )。L 位 字段 是 
“在 链 路 上 ”的 标志 ， 并 表示 所 提供 的 前 缀 是 能 用 于 在 链 路 上 判定 的 (请 参阅 下 文 )。 如 果 没 
有 设置 ， 它 对 在 链 路 上 判定 的 使 用 没有 做 任何 声明 。A 位 字段 就 是 “自主 自动 配置 ”标志 ， 
并 表示 所 提供 的 前 级 可 用 于 自动 配置 ( 见 第 6 章 )。 有 效 生 命 周期 (Valid Lifetime) 和 首选 生 
命 周期 (Preferred Lifetime) 字段 分 别 表示 前 缀 能 被 用 于 在 链 路 上 判定 和 自动 地 址 配置 的 秒 
数 。 任 何 一 个 字段 中 值 0xFFFFFFFF 表示 无 穷 大 。 

在 IPv6 中 ,“ 在 链 路 上 ”的 节点 对 应 于 那些 能 够 使 用 直接 交付 到 达 的 节点 (第 5 章 )。 
在 IPv4 中 ， 节 点 被 认为 是 在 链 路 上 的 ， 如 果 它 们 有 一 个 共同 的 前 级， 由 它们 自己 的 IPv4 
地 址 和 分 配 的 子 网 掩 码 组 合 确 定 。 虽 然 使 用 TP vo 就 可 以 实现 这 样 的 安排 但 并 不 是 必需 
的 ， 未 经 确认 “在 链 路 上 ”状态 不 能 被 假设 。 相 反 ，L 位 字段 表示 对 一 台 主 机 或 路 由 器 而 言 
哪些 前 缀 或 单个 主机 列表 是 在 链 路 上 的 [RFC5942]。 其 他 机 制 也 可 以 达到 这 个 目的 (例如 ， 
DHCPv6, 手工 配置 ,或 ICMPv6 重 定向 报 文 )。 一 个 节点 通常 被 认为 是 不 在 链 路 上 的 ， 除 非 
有 确认 信息 表明 它 是 在 链 路 上 的 。 


8.5.6.3” 重 定向 头 部 选项 (类 型 4 ) 

重 定向 头 部 选项 被 用 于 包含 一 份 导致 生成 重 定向 报 文 的 原始 (“违规”) IPv6 数据 报 。 
图 8-44 给 出 了 选项 格式 。 任 何其 他 类 型 的 报 文 将 忽略 该 选项 。 
8.5.6.4 MTU 选项 (类 型 $ ) 


MTU 选项 仅 在 RA 报 文中 提供 ， 在 其 他 地 方 被 忽略 (参见 图 8-45 ) 。 它 提供 了 主机 使 用 
的 MTU， 假 设 能 够 支持 一 个 可 配置 的 MTU。 
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0 15 16 31 
类 型 (4 ) 长 度 保留 (0 ) 


尽量 多 地 包含 违规 数据 报 , 只 要 最 终 的 
IPv6/ICMPv6 数据 报 不 超过 最 小 的 MTU 
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| 
| 
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| 
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图 8-44 重 定向 头 部 选项 标记 出 了 部 分 (或 者 全 部 ) 违规 IPv6 数据 报 拷贝 的 开始 。 
在 任何 情况 下 ， 该 报 文 受 限 于 最 小 的 IPv6 MTU (当前 是 1280 FY) 


0 15 16 31 
类 型 (5) | 长 度 (1) | 保留 (0) | 
8 字 





Aio 


节 





MTU 


图 8-45 MTU 选项 包含 在 本 地 链 路 中 使 用 的 MTU。 这 个 选项 是 和 RA 报 文 一 起 使 用 的 ， 
在 使 用 非 标准 或 者 未 知 MTU 时 是 最 有 用 的 


MTU 选项 非常 重要 ， 例 如 在 桥接 两 个 或 者 多 个 拥有 多 个 不 同 MTU 的 异 构 链 路 层 技术 时 。 
没有 这 个 选项 (假设 桥接 并 没有 产生 ICMPv6 PTB 报 文 )， 在 桥接 链 路 层 网 络 中 主机 可 能 无 法 
可 靠 地 和 其 他 主机 通信 。 注 意 这 个 报 文保 留 了 32 个 比特 位 来 存储 MTU， 支 持 非常 大 的 MTU. 


8.5.6.5 ”通告 间隔 选项 (类 型 7 ) 
这 个 选项 可 能 被 包含 在 RA 报 文中 ,在 其 他 地 方 被 忽略 。 它 指定 了 主动 组 播 路 由 器 通告 
间 的 最 大 时 间 间 隔 (参见 图 8-46 )。 





0 15 16 31 
类 型 (7) 长 度 (1) 保留 (0) 
8 字 节 
通告 间隔 ( 毫秒 ) 


图 8-46 通告 间隔 给 出 了 主动 组 播 路 由 器 通告 之 间 间 隔 的 毫秒 数 


通告 间隔 选项 给 出 定期 路 由 器 通告 报 文 间 的 时 间 。 通 告 间隔 (Advertisement Interval) 字 
段 定义 了 此 报 文 到 达 网 络 上 的 发 送 者 所 发 送 的 RA 报 文 传输 间 的 最 大 毫秒 数 。 路 由 器 发 送 的 
通告 可 能 比 选项 指定 的 通告 多 ， 但 是 并 不 频繁 。 移 动 IPv6 节点 在 其 运动 检测 算法 中 使 用 此 
选项 [RFC6275]。 


8.5.6.6 ”本 地 代理 信息 选项 (类 型 8 ) 

这 个 选项 包含 在 愿意 充当 移动 IPv6 本 地 代理 [RFC6275] (BU ABLE ZE RA 报 文中 设置 H 
位 字段 的 ) 的 路 由 器 发 出 的 RA 报 文中 ,在 其 他 的 地 方 被 忽略 。 如 果 五 位 字段 没有 被 设置 的 
话 ， 是 不 允许 包含 该 选项 的 。 在 使 用 了 请 求 RA 报 文 进而 多 个 不 同 的 报 文 携带 了 多 个 地 址 且 
设置 了 R 位 字段 的 情况 下 ， 它 们 中 的 每 个 都 必须 包含 该 选项 ， 且 包含 相同 的 值 。 图 8-47 给 
出 了 本 地 代理 信息 选项 格式 。 

本 地 代理 优先 级 ( Home Agent Preference) 字段 是 一 个 16 位 无 符号 整数 ， 用 于 帮助 移动 
节点 预定 通过 “本 地 代理 地 址 发 现 应 答 ” 报 文 提供 给 它 的 地 址 。 值 越 大 表示 使 用 发 送 路 由 器 
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作为 一 个 本 地 代理 的 优先 级 程度 越 大 。 如 果 这 个 选项 没有 被 包括 在 H Be (本 地 代理 ) 已 
经 被 设置 的 路 由 器 通告 报 文中 ， 起 始 路 由 器 的 优先 级 值 被 认为 是 0 (最 低 的 优先 级 )。 


0 15 16 31 


类 型 (8) 长 度 (1) 保留 (0) y 
本 地 代理 优先 级 本 地 代理 生命 周期 (E) 


图 -47 ”本 地 代理 信息 选项 表示 了 选项 的 发 送 者 愿意 作为 一 个 移动 IPv6 的 本 地 代理 的 优先 级 和 时 间 长 
度 。 本 地 代理 优先 级 字段 值 越 大 ， 表 示 越 愿意 做 一 个 本 地 代理 。 本 地 代理 生命 周期 字段 给 出 
了 发 送 者 愿意 成 为 一 个 HA 的 秒 数 


本 地 代理 生命 周期 (Home Agent Lifetime) 字段 也 是 16 位 无 符号 整数 ， 指 定 该 报 文 的 发 
送 者 应 考虑 作为 本 地 代理 ( 带 有 之 前 描述 的 相应 的 优先 级 ) 的 秒 数 。 此 字段 的 默认 值 等 于 所 
包含 的 RA 报 文生 命 周期 字段 。 这 一 字段 的 最 大 值 ( 65 535 ) 对 应 18.2 小 时 ,最 小 值 是 1 (0 
表示 不 允许 )。 如 果 本 地 代理 生命 周期 和 本 地 代理 优先 级 字段 仅 包含 默认 值 ， 那 就 不 允许 在 
RA 报 文中 包含 整个 选项 。 


8.5.6.7 ” 源 和 目标 地 址 列表 选项 (类 型 9，10 ) 

这 些 选 项 可 能 被 包含 在 IND 报 文中 [RFC3122]。 图 8-48 给 出 了 格式 。 源 地 址 列表 选 
项 (类 型 9) 包含 了 一 个 由 源 链 路 层 地 址 选项 指定 的 IPv6 地 址 列表 。 目 标 地 址 列表 选项 (类 
型 10 ) 包含 了 由 目的 链 路 层 地 址 选项 指定 的 了 了 v6 地 址 列表 。 在 选项 中 包含 的 地 址 个 数 等 于 
(Length-1)/2， 其 中 长 度 (Length) 字段 值 包 含 了 选项 的 大 小 ， 以 8 字 节 为 单位 。 
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保留 (0 ) 





IPv6 地 址 WE 
(128 位 ) 
1 
| 1 
1 1 
1 1 
1 IPv6 地 址 | 
! 
| i | 可 变 
i = 大 小 
ee ee EAEN 


图 8-48 W (类 型 9) 和 目标 (类 型 10 ) 地 址 列表 选项 。 这 些 被 用 来 支持 IND， 并 提供 了 一 个 
节点 的 IPv6 地 址 的 列表 。 只 能 包含 用 来 发 送 报 文 的 接口 的 地 址 
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8.5.6.8 CGA 选项 (类 型 11 ) 
CGA 选项 被 用 来 和 SEND 一 起 携带 CGA 参数 ， 这 些 参数 是 检验 器 执行 CGA 验证 和 签 
名 验证 所 必需 的 。 图 8-49 给 出 了 它 的 格式 。 


0 15 16 31 





CGA 参数 
| (可 变 ) | 


| 填充 (0) 1 
1 (可 变 ) | 
图 8-49 与 SEND 一 起 使 用 的 CGA 选项 。 该 选项 编码 了 图 8-38 中 的 CGA 参数 
CGA 参数 部 分 由 图 8-38 描述 的 相同 字段 组 成 。 更 多 的 细节 请 参见 [RFC3971]。 
8.5.6.9 RSA 签名 选项 (类 型 12 ) 
RSA 签名 选项 被 用 来 和 SEND 一 起 携带 校 验 器 能 够 使 用 的 RSA EH, KEM CGA 
数 一 起 确定 发 送 系 统 是 否 拥 有 与 CGA 公 钥 相关 的 私 钥 。 图 8-50 给 出 了 它 的 格式 。 


0 
类 型 (12 ) 


15 16 31 


密 钥 散 列 
(128 位 ) 









20 字 节 





数字 签名 
(可 变 ) 


填 ) 
( 


FE (0 
可 变 ) 


图 8-50 与 SEND 一 起 使 用 的 RSA 签名 选项 。 该 签名 被 编码 进 了 PKCS#1 v1.5 (参见 第 18 章 ) 格式 ， 
415 被 用 于 检验 发 送 者 拥有 匹配 的 私 钥 ， 因 此 是 CGA 的 正确 拥有 者 


SARS) (Key Hash) 字段 包含 构建 签名 所 使 用 的 公 钥 经 SHA-1 散 列 后 其 结果 的 高 128 
位 。 数 字 签 名 (Digital Signature) 字段 包含 一 个 基于 下 面 这 些 值 的 标准 化 签名 : SEND 的 
CGA 报 文 类 型 标签 ， 源 IP 和 目的 IP 地址 ，ICMPv6 头 部 的 开始 32 位 字 (类 型 、 代 码 和 校 验 
和 字段 )，ND 协议 的 报 文 头 和 选项 (不 包括 RSA 签名 选项 ) 。 


8.5.6.10 ”时 间 蕉 选项 (类 型 13 ) 

时 间 惟 选项 给 出 了 发 送 系统 知晓 的 当天 的 当前 时 间 。 这 有 助 于 避免 遭 到 潜在 的 针对 
SEND 的 重 放 攻击 [RFC397]。 图 8-51 给 出 了 它 的 格式 。 

ay la] 4 ( Timestamp) 字段 记录 了 自 1970 年 1 月 1 日 00:00 UTC 以 来 的 秒 数 。 其 格式 是 
定点 的 ， 高 阶 的 48 位 编码 了 完整 的 秒 数 ， 剩 下 的 位 数 表示 小 数秒 ( 1/64K) 的 值 。 
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EJER 
(64 位 ; 自 1970 年 1 月 1 日 到 目前 的 秒 数 ) 





保留 
(48 位 ) 


16 字 节 








图 8-51 与 SEND 一 起 使 用 的 时 间 惟 选项 。 该 值 编 码 了 从 1970 年 1 月 1 日 
至 今 的 秒 数 。 主 要 用 于 防范 重 放 攻 击 


8.5.6.11 ”随机 数 选项 (类 型 14 ) 


随机 数 选项 保存 了 一 个 最 近 生 成 的 随机 数 。 这 有 助 于 防范 潜在 的 针对 SEND 的 重 放 攻 击 
[RFC3971]。 图 8-52 给 出 了 它 的 格式 。 
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Z 
机 变量 


随机 变量 值 
' (可 变 , 至 少 为 6 字 节 ) | 








图 8-52 与 SEND 一 起 使 用 的 随机 数 选项 。 该 值 编码 了 一 个 和 SEND 报 文 
一 起 使 用 的 随机 数 。 它 被 用 来 防范 重 放 攻 击 416 


随机 数 选项 值 是 由 发 送 者 选择 的 一 个 随机 数 。 数 值 的 长 度 至 少 为 6 个 字 节 。 第 18 章 详 
细 描 述 了 如 何 使 用 随机 数 来 对 抗 重 放 攻 击 。 
8.5.6.12 ”信任 销 选项 (类 型 15 ) 


信任 锚 选 项 包含 了 一 个 证 书 路 径 的 名 称 OR) (参见 第 18 章 )。 它 与 SEND 一 起 被 主机 用 
来 验证 RA 报 文 的 真实 性 。 图 8-53 给 出 了 它 的 格式 。 
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类 型 (15 ) 名 称 类 型 








I 名 称 t 


(可 变 ) 


| 填充 (0) | 
(可 变 ) i 





图 8-53 与 SEND 一 起 使 用 的 信任 销 选 项 。 信 任 锚 是 一 个 证 书 链 的 根 的 名 称 。 后 续 的 证 书 可 以 通过 和 
信任 锚 的 比较 来 验证 。 主 机 利用 SEND 中 的 信任 链 来 验证 路 由 器 通告 


名 称 类 型 (Name Type) 字段 表示 所 使 用 的 名 称 类 型 。 当 前 已 经 定义 了 两 个 值 : 1, DER 
X.502 名 称 ; 2， 全 限定 域名 称 (FQDN)。 可 能 会 包含 多 个 信任 锚 。 名 称 字 段 采 用 名 称 类 型 
字段 定义 的 格式 给 出 了 信任 锚 的 名 称 。 信 任 销 是 报 文 发 送 者 愿意 接受 的 信任 链 的 信任 根 ( 参 
见 第 18 章 )。 
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8.5.6.13 ”证 书 选 项 (类 型 16 ) 
证 书 选 项 保存 了 和 SEND[RFC3971] 一 起 使 用 的 单独 证 书 ， 用 以 提供 证 书 路 径 。 图 8-54 
给 出 了 它 的 格式 。 





证 书 | 


igen 


1 填充 (0) 1 
1 (可 变 ) | 


图 8-54 与 SEND 一 起 使 用 的 证 书 选 项 。 选 项 保存 了 一 个 组 成 证 书 路 径 上 的 
一 个 组 件 的 加 密 证 书 。 这 可 以 用 来 验证 路 由 器 通告 





证 书 类 型 ( Cert Type) 字段 表示 所 使 用 的 证 书 的 类 型 。 目 前 ， 只 定义 了 一 个 值 : 1， 
X.509v3 证 书 。 第 18 章 详细 介绍 了 证 书 及 其 管理 方法 。 


8.5.6.14 IP 地址 /前缀 选项 (类 型 17 ) 

IP 地 址 /前缀 选项 是 和 FMIPv6 报 文 一 起 使 用 的 (ICMPv6 类 型 154 ) [RFC5568]。 图 
8-55 给 出 了 它 的 格式 。 

选项 代码 ( Option-Code) 字段 值 表 示 哪 种 类 型 的 地 址 被 编码 了 : 1， 旧 的 移交 地 址 ; 2, 
新 的 移交 地 址 ; 3， 新 访问 路 由 器 的 (NAR AY) IPv6 地 址 ; 4, NAR 的 前 级 (在 PrRtAdv 中 )。 
WA KÆ (Prefix Length) 字段 给 出 了 IPv6 地 址 (IPv6 Address) 字段 中 有 效 前 导 位 个 数 。 
IPv6 地 址 字段 编码 了 由 选项 代码 字段 认定 的 IPv6 地 址 。 
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IPv6 地 址 
(或 者 前 级 ) 


8-55 与 FMIPv6 一 起 使 用 的 IP 地址 /前缀 选项 。 该 选项 保存 下 一 个 访问 路 由 器 的 前 级 
或 者 IPv6 地 址 ， 或 者 是 一 个 移动 节点 使 用 的 移交 地 址 


8.5.6.15 ” 链 路 层 地 址 选项 (类 型 19 ) 
链 路 层 地 址 (LLA) 选项 是 和 FMIPv6 报 文 (ICMPv6 类 型 154 ) [RFC5568] 一 起 使 用 的 。 
图 8-56 给 出 了 它 的 格式 。 
选项 代码 字段 值 表 示 相 关 的 链 路 层 地 址 ( Link-Layer Address) 字段 值 是 如 何 解释 的 : 0, 
ee 通配符 ， 即 附近 所 有 的 AP 都 要 求解 析 (resolution); 1, #f AP 的 地 址 ; 2， 移 动 节点 的 地 
418| dE; 3， 新 访问 路 由 器 的 地 址 ; 4, RtSolPr/PrRtAdv 报 文 的 源 地 址 ; 5， 地 址 是 当前 路 由 器 的 ; 
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6， 对 应 到 这 个 地 址 的 AP 没有 可 用 的 前 级 信息 ; 7， 编 址 的 AP 没有 可 用 的 快速 切换 。 链 路 
层 地 址 字段 包含 由 选项 代码 字段 指定 的 地 址 。 


0 1516 31 


性 路 层 地 址 | 
(可 变 ) ' 


f 
图 8-56 与 FMIPv6 一 起 使 用 的 链 路 层 地 址 选项 。 选 项 代码 值 指示 和 地 址 关联 的 实体 ( 即 任意 AP， 特 
定 AP, NAR, RtSolPr 的 发 送 者 或 者 PrRtAdv 报 文 ， 路 由 器 )， 如 果 前 组 信息 可 用 ， 且 LLA 
中 指示 的 AP 能 够 支持 快速 切换 


8.5.6.16 ”邻居 通告 确认 选项 (类 型 20 ) 
该 选项 是 和 FMIPv6 报 文 (ICMPv6 类 型 154 ) [RFC5568] 一 起 使 用 的 。 图 8-57 给 出 了 
它 的 格式 。 


15 16 31 


0 
长 度 (1 或 3) | ”选项 代码 状态 


1 
1 
1 
NCoA 1 
(新 移交 地 址 ， 如 果 提 供 的 话 ) | 
1 
| 
1 
1 
1 


图 8-57 与 FMIPv6 一 起 使 用 的 邻居 通告 确认 选项 。 当 一 个 移动 节点 从 一 个 之 前 访问 的 路 由 器 转移 到 
一 个 新 的 访问 路 由 器 ， 并 想 使 用 一 个 特定 的 新 移交 地 址 时 ， 新 路 由 器 表示 被 推荐 的 地 址 的 可 
接受 性 


选项 代码 字段 值 是 0。 状 态 ( Status) 字段 表示 对 主动 邻居 报 文 的 处 置 。 定 义 了 如 下 值 : 
1， 新 移交 地 址 (NCoA) 是 无 效 的 (执行 地 址 配置 ) ; 2，NCoA 是 无 效 的 (采用 IP 地 址 选项 
中 提供 的 NCoA); 3, NCoA 是 无 效 的 (使 用 NAR 的 地 址 来 代替 NCOA); 4， 之 前 提供 的 移 
交 地 址 (PCoA)( 没 有 发 送 绑 定 更 新 ) 128， 无 法 识别 的 链 路 层 地 址 。 


8.5.6.17 ”路 由 信息 选项 (类 型 24 ) 

该 选项 与 RA 报 文 一 起 使 用 ， 表 示 通 过 一 个 特定 路 由 器 能 够 到 达 哪 些 不 在 链 路 上 的 前 绥 
[RFC4191]。 图 8-58 给 出 了 它 的 格式 。 

MAKE (Prefix Length) 字段 给 出 了 前 组 字段 中 的 有 效 先 导 位 的 个 数 。 前 组 (Pref) F 
段 表 示 和 包含 的 前 级 相 关联 的 路 由 器 相对 于 其 他 路 由 器 的 优先 级 。 如 果 这 个 字段 包含 值 2， 
选项 必须 被 忽略 。 路 由 生命 周期 字段 给 出 了 前 缀 被 认为 有 效 的 秒 数 。 所 有 位 都 是 1 的 值 表示 
EFK, WA (TEKE) 字段 给 出 了 被 描述 的 IPv6 AYA. 
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F 15 16 31 
保留 (0) [EIR RM (0) 
路 由 生命 周期 (Æ) 


1 
| 
1 
| 
1 
1 
| 
| 
| 
| 
1 






1 
1 
| 
| 
| 
Ma 
(可 变 长 度 ) ' 
1 
| 
1 
1 


i 
图 8-58 ”路 由 信息 选项 表示 使 用 一 个 特定 的 路 由 器 到 达 一 个 特定 的 不 在 链 路 上 的 前 级 的 优先 级 。 在 同 
时 存在 多 个 可 用 路 由 器 且 通 过 不 同 的 方式 到 达 相 同 目的 地 时 ， 这 个 选项 特别 有 用 


8.5.6.18 ”递归 DNS 服务 器 选项 (类 型 25 ) 

[RFC6160] 中 定义 的 递归 DNS 服务 器 (RDNSS) 选项 和 RA 报 文 一 起 使 用 ， 能 够 通过 提 
供 一 个 或 者 多 个 DNS 服务 器 的 地 址 来 增强 无 状态 配置 (参见 第 6 章 和 第 11 章 )。 一 个 RA 报 
文中 可 能 包含 多 个 RDNSS 选项 。 图 8-59 给 出 了 它 的 格式 。 


0 1516 31 


生命 周期 ( 秒 ) 





24 字 节 
递归 DNS 服务 器 的 IPv6 地 址 
(128 位 ) 
1 1 
I 1 
1 1 
| | 
1 附加 服务 器 的 IPv6 地 址 | 
! ! 
pe La __ | 可 变 
: i | 大 小 
gd etre a a BE hoa 
1 
1 
| 
1 
| 
1 
1 
1 
| 


1 
i 
i 
! 附加 服务 器 的 IPv6 地 址 
i 
1 
1 


图 8-59 递归 DNS 服务 器 选项 表示 一 个 或 者 多 个 能 够 执行 递归 查询 的 DNS 服务 器 的 IPv6 地 址 


生命 周期 (Lifetime) 字段 给 出 了 列表 中 的 DNS 服务 器 被 认为 是 有 效 的 时 间 长 度 ， 以 秒 
计 。 所 有 位 都 是 1 的 值 表示 无 穷 大 的 生命 周期 。 假 如 需要 不 同 的 生命 周期 ， 在 同一 个 RA 报 
文中 可 能 包含 多 个 不 同 的 RDNSS 选项 。 
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8.5.6.19 ”路 由 器 通告 扩展 标志 选项 (类 型 26 ) 
这 个 选项 扩展 了 RA 报 文 中 使 用 的 标志 字段 。 它 有 时 也 称 为 扩展 标志 选项 (Expanded 
Flags Option，EFO)。 图 8-60 给 出 了 它 的 格式 。 


0 15 16 31 


ca | 
i 
| 





类 型 (26) 











| 分 配 可 用 的 位 字 自 
| (可 变 ) 





图 8-60 ”路 由 器 通告 扩展 标志 选项 为 今后 定义 RA 标志 提供 了 一 个 任意 大 小 的 附加 空间 


KA (Length) 字段 目前 被 定义 为 1， 直到 后 续 的 位 被 分 配 为 止 。 


8.5.6.20 ”切换 密 钥 请 求 选项 (类 型 27 ) 
切换 密 钥 请 求 选 项 和 FMIPv6 报 文 一 起 使 用 ， 它 使 用 SEND 保护 信 令 信息 的 安全 
[RFC5269]。 图 8-61 给 出 了 它 的 格式 。 














0 15 16 31 
切换 密 钥 加 密 公 钥 

| (可 变 ) 

! 填充 (0) | 

(可 变 ) 


图 8-61 与 FMIPv6 报 文 一 起 使 用 的 切换 密 钥 请 求 选项 使 用 SEND 保护 信 令 的 安全 ， 并 提供 了 包括 一 
个 公 钥 在 内 的 CGA 参数 。 路 由 器 使 用 这 个 信息 形成 一 个 为 移动 节点 加 密 好 的 切换 密 钥 


填充 长 度 (Pad Length) 字段 给 出 了 在 选项 尾部 用 0 填充 的 字 节 个 数 (包含 在 长 度 字 段 之 
内 )。 算 法 类 型 ( Algorithm Type, AT) 字段 表示 用 于 计算 认证 者 的 算法 (参见 [RFC5568])。 
切换 密 钥 加 密 公 钥 (Handover Key Encryption Public Key) 字段 使 用 和 CGA 选项 相同 的 格式 
加 密 了 FMIPv6 CGA 公 钥 。 填 充 ( Padding) 字段 包含 了 值 为 0 的 字 节 以 保证 选项 的 长 度 是 8 
字 节 的 倍数 。 


8.5.6.21 切换 密 钥 应 答 选 项 (类 型 28 ) 

该 选项 和 FMIPv6 报 文 一 起 使 用 ， 它 使 用 SEND 保护 信 令 信息 的 安全 [RFC5269]。 
图 8-62 给 出 了 它 的 格式 。 

填充 长 度 及 AT 字段 和 切换 密 钥 请 求 选 项 中 一 样 。 密 钥 生 命 周 期 (Key Lifetime) F 
段 给 出 了 切换 密 钥 有 效 的 秒 数 (默认 是 HK-LIFETIME 或 者 43 2008)。 加 密 的 切换 密 铀 
(Encrypted Handover Key) 字段 保存 了 一 个 对 称 密 钥 (参见 第 18 章 )， 是 经 过 移动 节点 的 切 
换 密 钥 加 密 过 的 。 加 密 格式 是 RSAES-PKCS1-vl 5 [RFC3447]。 填 充 字 段 包含 了 值 为 0 的 字 
节 以 保证 选项 的 长 度 是 8 字 节 的 倍数 。 
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0 15 16 


类 型 (28 ) 填充 长 度 











catty (4 位 ) 





密 钥 生命 周期 





加 密 的 切换 密 钥 
(可 变 ) ! 


填充 (0) 
(可 变 ) | 








图 8-62 ”与 FMIPv6 报 文 一 起 使 用 的 切换 密 钥 应 答 选项 使 用 SEND 保护 信 令 的 安全 ， 并 提供 了 使 用 移 
动 节 点 公 钥 来 加 密 的 一 个 对 称 切换 密 钥 。 只 有 正确 的 移动 节点 来 处 理 对 应 的 私 钥 才 能 解密 该 
选项 并 得 到 密 钥 


8.5.6.22 DNS 搜索 列表 选项 (类 型 31 ) 

DNS 搜索 列表 (DNSSL) 选项 [RFC6106] 用 来 表示 一 个 域名 扩展 列表 被 添加 到 一 台 主 
机 可 能 发 起 的 DNS 查询 中 。 搜 索 列表 是 DNS 配置 信息 中 的 一 部 分 ， 当 Ea es 
给 主机 (参见 第 6 章 )。 图 8-63 给 出 了 DNSSL 选项 的 格式 。 


0 15 16 31 


生命 周期 ( 秒 ) 


| 

I 

DNS 搜索 列表 的 域名 
(可 变 , 采用 [RFC1035] 格式 ) 
1 
1 
i 
| 


图 8-63” 当 配置 一 个 主机 的 DNS 参数 时 ，DNS 搜索 列表 选项 提供 了 一 个 默认 域名 扩展 列表 。 
编码 的 格式 和 编码 DNS 名 称 中 的 一 样 (参见 第 11 章 ) 


生命 周期 字段 表示 从 报 文 被 发 送 的 时 间 开 始 ， 域 名 搜索 列表 被 认为 是 有 效 的 时 长 。 域 名 
搜索 列表 包含 一 个 域名 扩展 的 列表 (未 压缩 的 )， 作 为 从 部 分 字符 串 构 建 的 FQDN 的 默认 形 
式 (参见 第 11 章 )。 


8.5.6.23 ”实验 值 (类 型 253，254) 
这 些 值 只 用 于 实验 ， 正 如 [RFC3692] 描述 的 。 


8.6 ICMPv4 #0 ICMPv6 转换 


在 第 7 章 ， 我 们 讨论 了 基于 [RFC6144] 和 [RFC6145] 来 转换 IPv4/IPv6 的 一 个 框架 ， 并 
讨论 了 如 何 转 换 人 P 头 部 。[RFC6145] 描述 了 从 ICMPv4 转换 到 ICMPv6 的 方法 ， 以 及 相反 
方向 的 转换 方法 。 当 转换 ICMP 时 ，IP 和 ICMP 头 部 都 要 被 转换 ( 即 ， 被 修改 和 被 替换 )。 
除 此 之 外 ， 包 含 了 一 个 内 部 违规 数据 包头 部 及 数据 的 ICMP 差错 报 文 ， 也 会 转换 内 部 GE 
规 ) 数据 报 的 头 部 。 除 了 映射 适当 的 类 型 和 代码 号 之 外 ， 还 有 需要 额外 考虑 的 分 片 、MTU 
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大 小 以 及 校 验 和 计算 。 回 忆 一 下 ，ICMPv6 使 用 一 个 伪 头 部 校 验 和 来 涵盖 网 络 层 信息 ， 而 
ICMPv4 校 验 和 只 是 在 ICMPv4 信息 之 上 计算 的 。 


8.6.1 从 ICMPv4 转换 到 ICMPv6 


当 转 换 ICMPv4 信息 报 文 到 ICMPv6 时 ， 只 有 回 显 请 求 和 回 显 应 答 报 文 被 转换 了 。 为 
了 执行 这 个 转换 ， 类 型 值 (8 和 0 ) 分 别 被 转换 到 值 128 和 129。 在 转换 之 后 ， 计 算 并 应 用 
ICMPv6 的 伪 头 部 校 验 和 。 当 转换 ICMPv4 差错 报 文 时 ， 只 有 下 面 的 差错 报 文 被 转换 了 : 目的 
不 可 达 (类 型 3 )， 超 时 (类 型 11 )， 参 数 问题 (类 型 12 )。 表 8-6 给 出 了 用 来 执行 转换 的 类 型 
和 代码 值 。 没 有 给 出 的 类 型 和 代码 是 不 会 被 转换 的 ， 到 达 的 已 经 被 转换 的 数据 包 将 会 被 丢弃 。 


表 8-6 ”用 来 转换 ICMPv4 差错 报 文 到 ICMPv6 的 类 型 和 代码 映射 


类 型 /代码 ICMPv4 描述 性 名 称 ICMPv6 描述 性 名 称 (注解 ) 


3/0 目的 不 可 达 一 一 网 络 目的 不 可 达 一 一 无 路 由 
3/1 目的 不 可 达 一 一 主机 目的 不 可 达 一 一 无 路 由 


ee ea ee ar 
as ore in 参数 问题 一 一 无 法 识别 的 下 一 个 头 部 (设置 


指针 (Pointer) 指示 下 一 个 头 部 (Next Header) ) 
3/3 目的 不 可 达 一 一 端口 


a 
- ARR arr | ao | pe (调整 MTU 字段 反映 更 大 的 IPv6 头 部 


目的 不 可 达 一 一 源 路 由 失败 oa 目的 不 可 达 一 一 无 路 由 (不 大 可 能 发 生 ) 
3/{6,7} | 目的 不 可 达 一 无 路 由 


/主机 


3/8 目的 不 可 达 一 一 源 主机 隔离 | 目的 不 可 达 一 一 无 路 由 


TEE 林 
3/{9,10} ai 管理 上 禁止 目的 1/1 目的 不 可 达 一 一 管理 上 禁止 与 目的 地 通信 


3/{11,12) | 目的 不 可 达 一 Tos 不 可 用 | uo | 目的 不 可 达 一 无 路 由 

3/13 a= a 目的 不 可 达 一 管理 上 禁止 与 目的 地 通信 
3/14 Toe eee (丢弃 ) 

3/15 TT 目的 不 可 达 一 管理 上 禁止 与 目的 地 通信 
von En (RRIF) 


Sunes Ea 参数 问题 一 -出现 错 误 的 头 部 字段 (如 表 








节 偏 移 


12/1 参数 问题 一 丢失 选项 | ”N/A ”| (丢弃 ) 


izj 参数 问题 _ ”错误 长 度 40 参数 问题 一 一 出 现 错误 的 头 部 字段 (如 表 


8-7 那样 更 新 指针 ) 


a“ 8-7 那样 更 新 指针 ) 


正如 表 8-6 给 出 的 ， 对 于 由 指针 字段 给 出 出 现 问题 的 字 节 偏 移 值 的 参数 问题 报 文 ， 用 一 
个 额外 的 映射 来 形成 适当 的 IPv6 指针 字段 值 。 表 8-7 给 出 了 这 个 映射 。 

除了 要 执行 头 部 转换 之 外 ， 携 带 在 ICMPv4 差错 报 文中 的 违规 数据 报 也 要 根据 IPv4/ 
IPv6 转换 规则 来 转换 。 注 意 这 意味 着 如 果 内 部 转换 没有 执行 的 话 ， 最 终 得 到 的 ICMPv6 数 
据 报 和 它 应 有 的 大 小 会 有 很 大 不 同 。 更 新 基本 IPv6 头 部 中 的 总 长 度 〈Total Length) 字段 以 
便 反 映 这 种 影响 。 注 意 只 能 支持 一 层 这 种 内 部 转换 。 如 果 发 现 了 一 个 或 者 多 个 附加 的 内 部 头 
部 ， 正 在 被 转换 的 数据 包 将 被 丢弃 。 通 常 ， 除 ICMP 报 文 之 外 的 数据 包 如 果 转 换 失败 将 会 生 
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成 一 个 ICMPv4 目的 不 可 达 一 一 通信 管理 上 禁止 (代码 13) 报 文 ， 并 将 其 发 送 到 该 失败 数据 
包 的 发 送 者 那里 。 


表 8-7” 当 转换 一 个 ICMPv4 参数 问题 报 文 到 ICMPv6 时 用 到 的 指针 字段 映射 


0 | 版 本 HEL | o | 版 本 /Ds 字段 /ECN (流量 类 型 ) 
I | ps 字段 /ECN (Tos) | 1 | ps 字段 /ECN (流量 类 型 ) /流标 答 
2,3 | 总 长 度 负载 长 度 

4, 5 标识 

: mun 


注意 ， 与 其 他 被 转换 到 IPv6 的 IPv4 流量 一 样 (参见 第 7 BE), DR 位 字段 没有 设置 的 到 
达 的 数据 包 会 导致 一 个 或 者 多 个 包含 分 片头 部 的 IPv6 数据 包 ， 且 生成 的 分 片 不 会 超过 IPv6 
的 最 小 MTU。 这 主要 是 为 了 处 理 IPv4 的 路 由 器 允许 分 片 IPv4 流量 而 IPv6 路 由 器 却 不 允许 
的 问题 。ICMPv4 PTB 报 文 可 能 需要 转换 到 ICMPv6 PTB 报 文 ， 其 MTU 值 小 于 IPv6 的 最 小 
链 路 MTU 1280 字 节 。 一 个 操作 正确 的 IPv6 协议 栈 会 处 理 所 有 这 样 的 报 文 ， 然 后 发 送 装备 
有 分 片头 部 的 后 续 数 据 报 到 相同 目的 地 。 


8.6.2 从 ICMPv6 转换 到 ICMPv4 


在 ICMPv6 信息 类 报 文中 ， 回 显 请 求 (类 型 128 ) 和 回 显 应 答 (类 型 129 ) 报 文 被 分 别 转 
换 到 ICMPv4 回 显 请 求 (类 型 8 ) 和 回 显 应 答 (类 型 0)。 更 新 校 验 和 以 体现 类 型 值 变化 和 缺 
少 伪 头 部 计算 。 其 他 信息 类 报 文 将 被 丢弃 。 表 8-8 给 出 了 差错 报 文 是 如 何 被 转换 的 ， 给 出 了 
进 (ICMPv6 ) 和 出 (ICMPv4 ) 类 型 和 代码 值 。 


表 8-8 用 于 将 ICMPv6 差错 报 文 转换 到 ICMPv4 的 类 型 和 代码 值 


ICMPv6 类 型 / ICMPv4 类 型 / 
RE ICMPv6 描述 性 名 称 ICMPv4 描述 性 名 称 ( 注解) 


1/0 目的 不 可 达 一 一 无 路 由 目的 不 可 达 一 一 主机 
sate 

i ae Saleem, Si 目的 不 可 达 一 管理 上 禁止 目的 主机 

1/2 目的 不 可 达 一 一 超出 源 地 址 范围 目的 不 可 达 一 一 主机 

1/3 目的 不 可 达 一 一 地 址 3/1 目的 不 可 达 一 一 主机 

1/4 目的 不 可 达 一 一 端口 目的 不 可 达 一 端口 


PTB (调整 MTU 字段 以 反映 更 大 的 
IPv6 头 部 大 小 ) 3/4 目的 不 可 达 一 一 需要 分 片 (PTB) 
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( 续 ) 













ICMPv6 类 型 / 
代码 









ICMPv4 描述 性 名 称 (注解 ) 


ICMPv4 类 型 / 








超时 一 一 TTL， 分 片 重组 (代码 值 未 
改变 ) 


3/{0,1} 









i sae 参数 问题 一 -指针 包含 差错 的 字 节 偏 
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出 现 未 识别 的 IPv6 选项 N/A 


示 协 议 字段 ) 
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再 一 次 ， 与 参数 问题 报 文 一 起 使 用 的 指针 字段 需要 特殊 处 理 。 表 8-9 提供 了 从 ICMPv6 
到 ICMPv4 这 种 情况 的 映射 。 


表 8-9 当 转 换 ICMPv6 参数 问题 报 文 到 ICMPv4 时 使 用 的 指针 字段 映射 


= sr 
0 版 本 /DS 字段 /ECN (流量 类 型 ) | o | 版 本 /IHL/DS 字段 /ECN (ToS) 
E TON eo 

o an a 


注意 ICMPv4 校 验 和 没有 使 用 伪 头 部 ， 因 此 当 执行 一 个 头 部 转换 ， 假 如 执行 的 是 一 个 
非 校 验 和 中 立地 址 转换 ， 那么 必须 更 新 产生 的 校 验 和 。 此 外 ， 内 部 的 IPv6 报 文 可 能 包含 非 
IPv4 可 转换 地 址 ， 导 致 需要 进行 状态 转换 (参见 第 7 章 )。 

当 处 理 数据 包 大 小 差异 时 ， 回 忆 一 下 在 IPv6 数据 报 中 没有 不 分 片 指示 (“不 分 片 ” 总 是 
隐 含 为 真 )， 路 由 器 不 能 执行 分 片 操作 。 结 果 ， 将 会 丢弃 到 达 转 换 器 中 的 那些 并 不 适合 到 达 
下 一 跳 IPv4 接口 MTU 的 IPv6 数据 包 ， 然 后 发 送 一 个 适当 的 ICMPv6 PTB 报 文 返回 违规 数 
据 报 的 IPv6 Wo 


8.7 与 ICMP 相关 的 攻击 


涉及 ICMP 的 攻击 主要 分 为 3 类 : 泛 洪 (flood)、 炸 弹 (bomb) 和 信息 泄露 (information 
disclosure)。 本 质 上 ， 泛 洪 将 会 生成 大 量 流量 ， 导 臻 针对 一 台 或 者 多 台 计 算 机 的 有 效 的 DoS 
攻击 。 炸 弹 类 型 (有 时 也 称 为 核弹 (nuke) 类 型 ) 指 的 是 发 送 经 过 特殊 构造 的 报 文 ， 能 够 导 
致 IP 或 者 ICMP 的 处 理 骨 省 或 者 终止 。 信 息 泄 露 攻击 本 身 并 不 会 造成 危害 ， 但 是 能 够 帮助 
其 他 攻击 方法 避免 浪费 时 间或 者 被 发 现 。 针 对 TCP 的 ICMP 攻击 已 经 被 专门 记录 在 文档 中 了 
[RFC5927]. 


有 一 种 早期 的 ICMP 攻击 称 为 Smurf 攻 击 。 这 相当 于 使 用 目的 地 址 为 广播 地 址 的 


总 长 度 
协议 
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ICMPv4， 导 致 大 量 计算 机 做 出 响应 。 如 果 这 样 做 得 很 快 ， 它 可 以 导致 Dos 攻击 ， 因 为 受害 
主机 忙于 处 理 ICMP 流量 而 不 能 做 其 他 任何 事情 。 通 常 来 说 ， 这 种 攻击 方式 将 源 P 地 址 设 
置 为 受害 者 的 地 址 。 因 此 ， 当 多 台 主 机 收 到 广播 ICMP 报 文 时 ， 所 有 主机 同时 以 ICMP 报 文 
的 形式 响应 源 地 址 ( 即 受 害 主机 的 地 址 )。 这 种 攻击 很 容易 处 理 ， 只 需 在 防火 墙 边 界 禁止 传 
入 的 广播 流量 。 

采用 ICMPv4 回 显 请 求 /应 答 报 文 (ping)， 有 可 能 以 这 样 一 种 方式 来 构建 数据 包 分 片 ， 
当 它 们 被 重组 时 将 形成 一 个 过 大 的 IPv4 数据 报 (大 于 最 大 值 64KB )。 这 已 用 于 导致 某 些 系 
Sha, FFARR A AIBN DoS 攻击 。 它 有 时 也 称 为 Ping of Death 攻击 。 一 个 有 点 
相关 的 攻击 涉及 改变 IPv4 头 中 的 分 片 偏 移 字段 值 ， 从 而 导致 IPv4 分 片 重组 路 由 器 的 错误 。 
这 也 被 称 为 泪 滴 (teardrop) 攻击 。 

另外 一 个 已 经 被 利用 的 意 想 不 到 的 情况 是 一 个 ICMP 报 文 假设 有 不 同 的 源 地址 和 目的 地 
hko Æ Land 攻击 中 ， 将 源 和 目的 地 IP 地 址 均等 于 受害 者 地 址 的 ICMP 报 文 发 送 到 受害 者 。 
当 收 到 这 种 报 文 时 ， 一 些 实现 的 反应 是 非常 不 幸 的 。 

ICMP 重 定向 功能 可 以 导致 终端 系统 使 用 一 个 不 准确 的 系统 作为 下 一 跳 路 由 器 。 虽 然 对 
传人 的 ICMP 重 定向 报 文 可 以 做 一 些 检 查 ， 以 确保 它们 真是 当前 默认 路 由 器 产生 的 ， 但 也 无 

428] ”法 保证 报 文 的 真实 性 。 在 这 种 攻击 中 ， 可 以 沿 着 流量 流 插 入 一 个 中 间 人 ( 见 第 18 章 ) 进行 记 
录 和 分 析 。 此 外 ， 它 可 以 被 修改 来 导致 不 想 要 的 动作 。 它 可 以 实现 类 似 ARP 中 毒 攻 击 的 结 
果 ( 见 第 4 章 )。 此 外 ， 它 已 被 用 于 使 受害 者 认为 自身 就 是 到 达 目 的 地 的 最 优 网 关 。 这 将 导 
致 一 个 无 限 循环 ， 间 接 锁定 受害 者 的 主机 。 

ICMP 路 由 器 通告 和 路 由 器 请 求 报 文 能 被 用 于 创建 一 个 类 似 于 重 定向 攻击 的 攻击 。 特 别 
是 ， 这 些 报 文 可 导致 受害 者 系统 修改 它们 的 默认 路 由 ， 指 向 被 入 侵 的 机 器 。 此 外 ， 被 动 地 接 
收 这 些 报 文 可 以 使 攻击 者 了 解 本 地 网 络 环境 的 拓扑 结构 。 请 注意 ， 这 样 的 “ 流 误 RA” 问 题 

不 管 是 恶意 的 还 是 偶然 的 ， 在 [RFC6104] 中 都 有 单独 详细 的 描述 。 

可 以 使 用 ICMP 作为 需要 协作 的 人 侵 程序 之 间 的 通信 通道 。 在 TFN (Tribe Flood 
Network， 族 泛 洪 网 络 ) 攻击 中 ,在 人 侵 主机 之 后 ICMP 被 用 来 协调 一 组 合作 病毒 的 行动 。 

ICMP 目的 不 可 达 报 文 可 造成 现 有 连接 (例如 ，TCP 连接 ) 的 拒绝 服务 。 在 一 些 实现 中 ， 
接收 来 自 于 一 个 耳 地 址 的 主机 不 可 达 、 端 口 不 可 达 或 协议 不 可 达 报 文 将 导致 关闭 和 这 个 地 
址 关联 的 传输 层 连接 。 这 些 攻击 有 时 也 被 称 为 Smack 或 Bloop 攻击 。 

ICMP 时 间 惟 请 求 / 应 答 报 文 (在 正常 操作 中 已 不 再 使 用 ) 能 根据 一 些 主机 学 习 到 当前 时 
间 (如 果 启 用 的 话 )。 由 于 许多 关于 安全 的 方法 是 基于 使 用 随机 密 钥 加 密 的 ， 如 果 源 和 状态 的 
随机 性 是 可 知 的， 一 个 外 部 参与 者 就 可 以 预测 用 来 创建 加 密 密 钥 的 伪 随 机 数 序列 (这 就 是 为 
什么 它们 是 伪 随 机 (pseudo-random) 的 原因 )， 可 能 会 允许 第 三 方 猜测 秘密 值 并 劫持 连接 ( 见 
第 13 章 的 TCP 和 第 18 章 的 随机 数 讨论 )。 因 为 许多 随机 数 是 基于 一 天 中 的 当前 时 间 ， 暴 露 
一 个 主机 的 精确 时 间 是 一 个 问题 。 

然而 ， 另 一 种 攻击 涉及 修改 PTB 报 文 。 回 想 一 下 ， 这 个 报 文 包 含 一 个 表示 推荐 MTU 值 
的 字段 。 这 将 被 传输 协议 (如 TCP) 用 来 选择 它们 数据 包 的 大 小 。 如 果 攻 击 者 修改 这 个 值 ， 
它 将 强制 终端 TCP 运行 时 使 用 非常 小 的 数据 包 (从 而 导致 性 能 低下 )。 

通过 在 当前 流行 的 操作 系统 中 修改 ICMP 实现 已 经 使 这 些 攻击 失效 。 但 是 如 果 没 有 加 
密 ， 一 般 来 说 欺骗 或 伪装 攻击 仍然 是 可 能 的 。 使 用 加 密 方 法 (如 SEND) 的 协议 提供 更 高 水 

[429] 平 的 安全 性 ， 但 可 能 需要 更 复杂 的 部 署 ， 当 出 现 问题 时 需要 的 分 析 也 更 复杂 。 
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8.8 总 结 


在 这 一 章 中 ， 我 们 已 经 了 解 了 Internet 控制 报 文 协议 (ICMPv4 和 ICMPv6 ) 是 每 一 个 IP 
实现 中 的 必要 组 成 部 分 。ICMP 报 文 是 携带 在 IP 数据 报 中 的 ， 是 我 们 讨论 过 的 第 一 个 有 端 到 
端 校 验 和 的 报 文 (在 ICMPv6 中 是 伪 头 部 校 验 和 )。ICMP 报 文 大 致 可 分 为 差错 类 和 信息 类 报 
文 。 一 般 来 说 ，ICMP 差错 报 文 不 会 响应 有 问题 的 ICMP 差错 报 文 ， 目 的 是 为 了 避免 报 文 泛 
BE, AEF IP BL, ICMP 提供 了 有 限 的 信息 和 差错 报告 功能 。 然 而 ， 重 要 的 回 显 请 求 / 应答 
和 超时 报 文 对 于 流行 的 ping 和 traceroute 工具 来 说 是 必需 的 。( 不 怎么 常见 的 ) 其 他 工具 会 使 
用 目的 不 可 达 、PTB 和 重 定向 报 文 ， 这 对 于 保证 路 径 MTU 发 现 和 高 效 路 由 器 选择 的 正确 操 
作 是 必需 的 。 

我 们 考察 了 ICMP 目的 不 可 达 、 重 定向 和 回 显 请 求 / 应 答 报 文 的 一 些 细节 。 我 们 也 看 到 
了 相当 常见 的 ICMP 端口 不 可 达 差 错 报 文 。 这 让 我 们 检查 在 一 个 ICMP 差错 中 返回 的 信息 : 
IP 头 部 以 及 包含 尽 可 能 多 的 导致 差错 的 IP 数据 报 ， 前 提 是 不 会 导致 差错 报 文 分 片 。 此 信息 
是 ICMP 差错 报 文 的 接收 者 必需 的 ， 用 来 进一步 了 解 导致 差错 的 原因 ， 并 帮助 将 差错 报 文 发 
送 到 适当 的 进程 或 协议 实现 。 有 一 个 扩展 功能 可 应 用 于 ICMP 报 文 来 携带 更 多 的 信息 (例如 ， 
MPLS 标签 或 下 一 跳 路 由 器 信息 )。 

相对 于 IPv4 中 的 ICMPv4，ICMPv6 相对 于 IPv6 而 言 是 一 个 更 为 复杂 和 重要 的 协议 。 
这 对 于 IPv6 系统 的 基本 配置 和 操作 是 至 关 重 要 的 。ICMPv6 包括 ICMPv4 中 多 数 最 有 用 的 报 
文 (例如 目的 不 可 达 、 超 时 、 需 要 分 片 、 回 显 请 求 /应 答 ), 但 也 可 以 处 理 ND ( 像 IPv4 中 的 
ARP)， 人 允许 IPv6 节点 发 现 链 路 上 的 主机 和 默认 路 由 器 ， 并 为 MIPv6 节点 提供 了 发 现 服务 和 
动态 配置 功能 。ICMPv6 也 可 用 于 管理 组 播 组 成 员 资 格 ， 这 是 通过 使 用 IPv4 的 IGMP 协议 来 
完成 的 ， 我 们 将 在 第 9 章 研 究 。ICMPv6 定义 了 一 套 丰 富 的 与 ND 一 起 使 用 的 选项 ， 其 中 一 
些 是 必需 的 。 由 于 ICMPv6 用 了 这 么 多 的 可 能 会 受到 攻击 的 主机 配置 报 文 ， 有 一 个 安全 的 变 
体 (SEND) 允许 使 用 密码 生成 的 地 址 (CGA) 来 验证 地 址 。CGA 对 它们 自己 的 权利 感 兴趣 ， 
被 用 在 除 SEND 之 外 的 协议 中 。 
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21 引言 
第 2 章 中 我 们 提 到 有 4 种 下 地 址 : 单 播 (unicast)、 任 播 (anycast)、 组 播 (multicast ) 
和 广播 (broadcast)。IPv4 可 以 使 用 所 有 这 些 地 址 ， 而 IPv6 可 以 使 用 除了 最 后 一 种 形式 的 所 
有 其 他 形式 的 地 址 。 在 本 章 中 ,我们 讨论 广播 和 组 播 更 多 的 细节 ， 包 括 链 路 层 地 址 如 何 有 效 
地 用 于 从 一 台 计 算 机 向 其 他 几 台 计算 机 发 送 组 播 或 广播 流量 。 我 们 也 查看 互联 网 组 管理 协议 
(IGMP) [RFC3376] 和 IPv6 组 播 侦 听 发 现 (MLD) [RFC3810] 协议 ， 它 们 用 来 通知 IPv4 和 
IPv6 组 播 路 由 器 子 网 中 哪些 组 播 地 址 在 使 用 中 。 本 章 (或 本 书 ) 中 ,我 们 没有 涉及 的 一 个 主 
题 是 在 诸如 全 球 互联 网 的 广域网 中 ， 组 播 路 由 是 如 何 实现 的 。 目 前 ， 组 播 在 企业 和 本 地 网 络 
中 的 使 用 超过 在 广域网 中 的 使 用 。 尽 管 我 们 在 本 章 中 讨论 的 这 些 协议 是 为 了 完全 理解 广 域 组 
播 ， 但 是 广 域 路 由 协议 比较 复杂 ， 而 且 会 使 解释 本 地 局 域 网 的 情况 不 必要 地 复杂 化 。 对 探索 
这 些 问 题 感 兴趣 的 读者 可 以 参考 [EGW02]。 
广播 和 组 播 为 应 用 程序 提供 了 两 种 服务 : 数据 分 组 交付 至 多 个 目的 地 ， 通 过 客户 端 请 
求 /发现 服务 器 。 
e 交付 至 多 个 目的 地 。 有 许多 应 用 程序 将 信息 交付 至 多 个 收 件 方 ， 例 如 ， 互 动 式 会 议 、 
邮件 或 新 闻 分 发 至 多 个 收 件 方 。 没 有 广播 或 组 播 ， 这 些 类 型 的 服务 往往 倾向 于 使 用 现 
在 的 TCP (将 一 个 单独 的 副本 交付 至 每 一 个 目的 地 ， 这 是 非常 低 效 的 )。 
o 通过 客户 端 请 求 服务 器 。 使 用 广播 或 组 播 ， 应 用 程序 可 以 向 一 个 服务 器 发 送 一 个 请 
求 ， 而 不 用 知道 任何 特定 服务 器 的 IP 地 址 。 当 本 地 网 络 环境 的 信息 了 解 得 很 少时 ， 
这 种 功能 在 配置 过 程 中 非常 有 用 。 例 如 ， 一 台 笔 记 本 电脑 可 能 需要 使 用 DHCP， 获 取 
它 的 初始 IP 地 址 ， 找 到 其 最 近 的 路 由 器 ( 见 第 6 章 )。 
虽然 广播 和 组 播 都 可 以 提供 这 些 重要 的 功能 ， 但 是 相对 于 广播 来 说 ， 组 播 一 般 情 况 下 是 
更 可 取 的 ， 因 为 组 播 只 涉及 那些 支持 或 使 用 特定 服务 或 协议 的 系统 ， 而 广播 却 不 是 。 因 此 ， 
一 个 广播 请 求 会 影响 在 广播 范围 内 所 有 可 以 到 达 的 主机 ， 而 组 播 只 影响 那些 可 能 对 该 请 求 有 
兴趣 的 主机 。 当 我 们 探讨 广播 和 组 播 的 详细 情况 后 ， 这 些 概 念 将 变 得 更 加 清晰 。 现 在 ， 请 记 
住 ， 在 广播 的 更 高 开销 和 简单 性 以 及 组 播 的 效率 改善 和 更 多 的 复杂 性 之 间 存 在 一 种 平衡 。 
广播 自 出 现 以 来 ， 就 一 直 受 到 IPv4 协议 的 支持 ， 而 随 着 [RFC1112] 的 出 版 ， 组 播 被 添 
加 进来 。IPv6 支持 组 播 但 不 支持 广播 。 一 般 来 说 ， 只 有 使 用 UDP 传输 协议 (第 10 章 ) 的 用 
户 应 用 程序 利用 广播 和 组 播 ， 此 时 应 用 程序 发 送 单个 报 文 到 多 个 收 件 方 才 是 有 意义 的 。TCP 
是 一 个 面向 连接 的 协议 ， 这 意味 着 两 台 主 机 (由 IP 地 址 指定 ) 和 每 台 主 机 上 的 一 个 进程 (由 
端口 号 指定 ) 之 间 的 一 个 连接 。TCP 可 以 使 用 单 播 和 任 播 地 址 (回想 一 下 ， 任 播 地 址 可 以 像 
单 播 地 址 一 样 )， 但 是 不 能 使 用 广播 或 组 播 地 址 。 


注意 广播 和 组 播 也 被 一 些 重 要 的 系统 进程 使 用 ， 如 路 由 协议 、ARP、IPv6 中 的 
ND 等 。 虽然 IP 组 播 支持 曾经 是 “插件 ”， 要 求 用 户 给 系统 打 补 丁 以 使 用 它 ， 但 是 
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现代 的 操作 系统 默认 地 包括 这 种 功能 。 组 播 是 重要 的 ， 但 在 IPv4 中 是 可 选 的 功能 ， 
而 在 IPv6 中 ， 因 为 ND 中 使 用 它 ， 所 以 是 强制 性 的 。ND 对 单 播 通信 来 说 是 关键 的 
服务 。 


9.2 广播 


广播 是 指 将 报 文 发 送 到 网 络 中 的 所 有 可 能 的 接收 者 。 在 原理 上 ， 这 是 简单 的 : 路 由 器 简 
单 地 将 它 接 收 到 的 任意 报 文 副 本 转 离 (forward out) 除 报 文 到 达 的 接口 以 外 的 每 个 接口 。 当 
436] 有 多 个 主机 连接 到 同一 个 本 地 局 域 网 时 ， 事 情 就 稍微 有 点 复杂 了 。 在 这 种 情况 下 ， 链 路 层 的 
特点 可 以 使 得 广播 在 某 种 程度 上 更 高 效 。 
考虑 在 诸如 以 太 网 的 网 络 上 的 一 组 主机 ， 这 种 网 络 在 链 路 层 上 支持 广播 。 每 个 以 太 网 帧 
包含 源 和 目的 MAC 地 址 (48 位 值 )。 通 常情 况 下 ， 每 个 了 分 组 被 指定 到 一 个 单一 的 主机 ， 
所 以 使 用 单 播 寻 址 ， 目 的 地 的 唯一 MAC 地 址 使 用 ARP 或 IPv6 ND 来 确定 。 当 一 个 帧 以 这 
种 方式 被 发 送 到 一 个 单 播 目 的 地 时 ， 任 意 两 个 主机 之 间 的 通信 不 会 打扰 网 络 上 的 任何 其 他 主 
机 。 对 于 交换 以 太 网 来 说 ， 这 些 都 是 在 交换 机 和 网 桥 中 的 站 点 缓存 中 发 现 的 地 址 类 型 ( 见 第 
3 章 )。 然 而 ， 有 些 时 候 ， 一 个 主机 要 向 网 络 (BK VLAN) 上 的 每 个 其 他 主机 发 送 一 个 帧 一 一 
这 称 为 广播 (broadcast)。 在 第 4 章 中 ,与 ARP 一 起 , 我 们 看 到 了 这 一 点 。 


9.2.1 使 用 广播 地 址 


在 一 个 以 太 网 或 类 似 网 络 中 ,组 播 MAC 地 址 中 高 位 字 节 的 低 序 位 打开 。 以 十 六 进 制 表 
示 ， 这 看 起 来 像 01:00:00:00:00:00。 我 们 可 以 认为 以 太 网 广播 地 址 PREP EEEE AE AAK 2 
播 地 址 的 一 种 特殊 情况 。 从 第 2 章 中 可 以 回忆 到 ， 在 IPv4 中 ， 每 个 子 网 都 有 一 个 本 地 定向 
子 网 广播 地 址 ， 它 是 通过 将 地 址 中 的 主机 部 分 全 部 置 1 形成 的 ， 特 殊 地 址 255.255.255.255 
对 应 于 本 地 网 络 (也 称 为 “有 限 ”) 广播 。 


9.2.1.1 ”例子 
在 Linux 中 ,与 每 个 接口 相关 的 IPv4 定向 子 网 广播 地 址 可 以 通过 ifconfig 命令 查看 或 设 
置 。 我 们 可 以 看 到 它 显 示 如 下 : 


Linux% ifconfig eth0 
etho Link encap:Ethernet HWaddr 00:08:74:93:C8:3C 
inet addr:10.0.0.13 Bceast:10.0.0.127 Mask:255.255.255.128 
inet6 addr: 2001:5c0:9ae2:0:208:74£f:fe93:c83c/64 
Scope:Global 
inet6 addr: fe80::208:74ff:fe93:c83c/64 
Scope: Link 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 
RX packets:426469 errors:0 dropped:0 overruns:1 frame:0 
TX packets:779338 errors:0 dropped:0 overruns:0 carrier:0 
collisions:298048 txqueuvelen:1000 
RX bytes:44414543 (42.3 MiB) TX bytes:1094425223 (1.0 GiB) 
Interrupt:19 Base address:0xec00 


这 里 ， 地 址 10.0.0.127 是 设备 eth0 所 连接 的 网 络 上 使 用 的 (定向 子 网 ) 广播 地 址 。 它 是 
通过 获取 网 络 前 级 ( 10.0.0.0/25 )， 并 将 其 与 该 地 址 的 主机 部 分 的 32 - 25 = 7 位 的 1 相 结合 
来 形成 的 : 10.0.0.0 OR 0.0.0.127 = 10.0.0.127。 一 个 称 为 ipcalc 的 简单 工具 在 某 些 系统 上 可 

以 用 来 执行 此 计算 。 
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为 了 查看 简单 的 广播 是 如 何 工作 的 ， 我 们 可 以 使 用 ping 程序 向 ifconfig 命令 输出 中 指明 
的 广播 地 址 10.0.0.127 发 送 一 个 ICMPv4 回 显 请 求 报 文 : 


Linux# ping -b 10.0.0.127 
WARNING: pinging broadcast address 
. PING 10.0.0.127 (10.0.0.127) 56(84) bytes of data. 
64 bytes from 10.0.0.6: icmp_seq=1 ttl=64 time=1.05 ms 
64 bytes from 10.0.0.113: icmp_seq=1 tt1=64 time=1.55 ms (DUP!) 
64 bytes from 10.0.0.120: icmp_seq=l ttl=64 time=3.09 ms (DUP!) 


--- 10.0.0.127 ping statistics --- 
1 packets transmitted, 1 received, +2 duplicates, 
0% packet loss, time Oms 


我 们 在 第 8 章 中 提 到 过 ， 在 这 种 类 型 的 广播 中 ,本 地 LAN (at VLAN) 上 的 所 有 主机 都 
受 影 响 。 在 这 里 ， 我 们 收 到 了 网 络 上 的 三 个 其 他 主机 的 回复 ， 并 且 ping 程序 说 明 接 收 到 了 比 
发 送 的 请 求 数量 更 多 的 响应 (DUP! 指示 )。 为 了 查看 正在 使 用 的 地 址 ,我 们 使 用 Wireshark 
来 研究 该 活动 ( 见 图 9-1 ) 。 


bcast-ping.td - Wireshark 
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图 9-1 发 送 到 本 地 子 网 定向 广播 地 址 的 ICMPv4 回 显 请 求 报 文 被 封装 在 一 个 链 路 层 广 播 帧 中 ， 并 且 该 
帧 的 目的 地 址 全 部 为 1 


回 显 请 求 报 文 被 发 送 到 地 址 10.0.0.127。IPv4 的 实现 通过 咨询 本 地 路 由 表 中 的 信息 和 接 
口 配置 信息 ， 确 定 这 是 该 定向 子 网 的 广播 地 址 ， 并 且 它 使 用 链 路 层 广 播 地 址 ff:ff:ff:ff:ff: 人 发 
送 该 数据 报 ， 因 此 不 需要 ARP 请 求 来 确定 每 个 目的 地 的 MAC 地 址 。 事 实 上 ， 在 主机 响应 之 
前 ， 发 送 方 并 不 知道 哪个 主机 将 响应 。 它 只 知道 10.0.0.127 是 一 个 广播 地 址 ， 因 此 当 它 发 送 
时 ， 应 该 使 用 广播 链 路 层 目的 地 址 。 在 IP 层 和 链 路 层 的 源 地 址 全 部 是 传统 的 单 播 地 址 ; 组 
播 地 址 只 能 作为 目的 地 址 。 

在 这 个 特定 的 例子 中 ， 请 注意 ， 每 个 生成 的 响应 被 定向 到 10.0.0.13 、 原 始 发 送 方 的 单 播 
地 址 ， 并 且 每 个 响应 包括 响应 方 的 IPv4 地 址 : 10.0.0.6, 10.0.0.113 和 10.0.0.120。 这 是 一 个 
原理 更 普遍 的 简单 例子 : 广播 寻 址 (和 组 播 寻 址 ,不 久 我 们 将 看 到 ) 可 以 用 来 发 现 其 他 方面 
未 知 的 系统 或 服务 。 在 这 个 例子 中 ， 传 出 的 广播 ping 请 求 发 现 了 三 个 主机 ， 它 们 愿意 响应 广 
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播 回 显 请 求 报 文 。 


9.2.2 发 送 广 播 数据 报 


一 般 来 说 ， 使 用 广播 的 应 用 程序 使 用 UDP 协议 (或 ICMPv4 协议 )， 然 后 调用 一 组 普 
Ñ API 来 发 送 流量 。 唯 一 例外 的 是 ， 当 调用 API 时 ， 一 些 操 作 系 统 会 使 用 一 个 特殊 的 标志 
(SO_BROADCAST)， 以 表示 该 应 用 程序 确实 打算 发 送 广播 数据 报 。 例 如 ， 在 Linx 中 ， 当 
试图 发 送 广播 ping 时 ， 没 有 使 用 -b 标志 会 引起 下 面 的 输出 : 


Linux% ping 10.0.0.127 
Do you want to ping broadcast? Then —b 


之 所 以 引起 该 错误 ， 是 因为 只 有 在 命令 中 提供 -b 参数 时 ， 才 能 通过 API 提供 SO_ BROADCAST 
标志 。 这 有 助 于 避免 意外 产生 广播 流量 而 造成 暂时 拥塞 网 络 。 

为 了 确定 哪些 接口 用 于 广播 ， 可 以 咨询 IPv4 转发 表 (这 里 称 为 “路 由 表 ”)。 以 下 是 
Windows Vista 路 由 表 的 一 个 例子 (更 高 版 本 的 Windows 使 用 完全 相同 的 格式 )， 显 示 了 接口 
列表 和 广播 相关 的 路 由 信息 (为 清楚 起 见 ， 其 他 信息 已 被 移 除 ): 


C:\> netstat -rn 


Interface List 


10 ...02 00 4c 4f 4E 50 ...... Microsoft Loopback Adapter 

9 20200 13 02 20 B9 18 cicees Intel(R) PRO/Wireless 3945ABG Network 
Connection 

8 sa00 14-22) £4 19 SE aanus Broadcom 440x 10/100 Integrated 
Controller 

l awcswsewtcrccesesecccusinese Software Loopback Interface 1 


12 ...00 00 00 00 00 00 00 e0 Microsoft ISATAP Adapter 

13 ...00 00 00 00 00 00 00 e0 Microsoft ISATAP Adapter #2 

11 ...00 00 00 00 00 00 00 e0 isatap. 
{2523E0D6-A8E2-42F1-8188-6AA108FEA1EA} 


See ee ee ee ee ee eee ee ee ese eee See See === ed 


Active Routes: 


Network Destination Netmask Gateway Interface Metric 
0.0.0.0 0.0.0.0 10.0.0.1 10.0.0.57 25 
10.0.0.127 255.255.255.255 On-link 10.0.0.57 281 
127.255.255.255 255.255.255.255 On-link 127.0.0.1 306 
169.254.255.255 255.255.255.255 On-link 169.254.57.240 286 
255.255.255.255 255.255.255.255 On-link 127.0.0.1 306 
255.255.255.255 255.255.255.255 On-link 169.254.57.240 286 
255.255.255.255 255.255.255.255 On-link 10.0.0.57 281 


输出 的 第 一 部 分 显示 了 7 个 不 同 的 网 络 接口 ， 它 们 可 用 于 承载 网 络 流量 。 第 1 个 是 虚拟 
环 回 接口 ， 下 一 个 是 Wi-Fi 无 线 接口 ， 第 3 个 是 有 线 以 太 网 接口 〈 断 开 的 )， 第 4 个 是 另 一 个 
环 回 接口 ， 随 后 的 三 个 用 作 非 标准 站 内 自动 隧道 寻 址 协议 (ISATAP) [RFC5214] [RFC5579] 
的 一 部 分 。ISATAP 用 于 支持 由 IPv4 网 络 隔断 的 IPv6 主机 。 

转移 到 路 由 表 中 ， 我 们 可 以 看 到 有 7 个 项 目 能 够 用 于 确定 广播 流量 应 发 送 到 的 地 址 。 第 
一 项 是 默认 路 由 ( 掩 码 为 0.0.0.0 )， 所 以 它 匹 配 任意 的 目的 地 。 如 果 有 这 样 的 设施 启用 了 ， 
就 可 以 被 定向 广播 用 于 跨越 本 地 网 络 。 这 种 类 型 的 定向 广播 移动 到 本 地 网 络 之 外 ， 通常 由 路 
由 器 来 禁用 ， 以 避免 一 些 安全 问题 ， 如 [RFC2644] 所 建议 的 。 

接 下 来 的 三 个 条 目 分 别 是 与 IPv4 地 址 10.0.0.57, 127.0.0.1 和 169.254.57.240 相关 的 3 ME 
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口 的 定向 子 网 广播 地 址 。 最 后 两 个 是 软件 环 回 接口 。 这 些 条 目 说 明 Windows 如 何 通过 结合 网 
络 前 级 与 全 1 主机 位 作为 定向 子 网 广播 路 由 的 目的 地 址 ， 以 及 子 网 掩 码 /32 BY 255.255.255.255. 
Gateway 列 为 On-link， 所 以 使 用 直接 交付 ( 见 第 5 章 ) 将 流量 交付 至 Interface 列 中 指定 的 接口 
上 。 在 这 些 情况 下 ， 对 于 每 个 定向 广播 地 址 ， 至 多 有 一 个 匹配 ， 因 此 不 会 询问 Metric 列 。 

最 后 三 项 是 有 限 广播 地 址 的 路 由 条 目 ，255.255.255.255。 在 某 些 时 候 ， 这 个 地 址 像 组 播 
地 址 一 样 ， 因 为 它 不 直接 与 任意 直接 连 在 网 络 上 的 正在 使 用 的 地 址 相关 联 。 因 此 ， 哪 一 个 
接 冲 应 该 用 于 发 送 去 往 有 限 广播 地 址 的 流量 不 是 一 目 了 然 的 。 不 幸 的 是 ，Host Requirements 
RFC [RFC1122] 的 3.3.6 节 提 供 了 很 少 的 指导 : 


目标 地 址 为 有 限 广播 地 址 的 数据 报 是 否 应 该 从 多 宿主 主机 的 所 有 接口 发 送 ， 对 
此 已 有 讨论 。 此 规范 对 该 问题 不 持 任 何 观点 。 


因此 ， 到 有 限 广 播 地 址 传 出 流量 的 处 理 方式 是 特定 于 操作 系统 的 。 大 多 数 系统 都 选取 一 
个 单一 的 具有 广播 功能 的 接口 来 发 送 这 样 的 流量 。Linux 和 FreeBSD 按 这 种 方式 运行 。 事 实 
上 FreeBSD 将 有 限 广 播 地 址 转换 成 一 个 “ 主 ”( 第 一 次 配置 ) 接口 的 定向 子 网 广播 地 址 ， 虽 然 
应 用 程序 可 以 使 用 卫 ONESBCAST API 参数 来 禁用 此 行为 。 例 如 ，Windows 在 不 同 的 版 本 
中 表现 不 同 。 一 直到 Windows 2000， 有 限 广 播 都 通过 多 个 接口 来 转发 。 在 Windows XP R 
后 版 本 中 ， 默 认 的 动作 是 通过 一 个 单一 的 接口 来 发 送 。 在 这 个 例子 中 ， 对 于 这 样 的 流量 有 多 
个 可 能 的 匹配 路 由 ， 所 以 使 用 了 具有 最 低 跃 点 数 的 条 目 (接口 10.0.0.57 )。 


9.3 组 播 


为 了 减少 在 广播 中 涉及 的 开销 ， 可 以 只 向 那些 对 它 感 兴趣 的 接收 方 发 送 流量 。 这 被 称 为 
组 播 ( multicasting)。 从 根本 上 说 ,通过 发 送 方 指明 接收 方 ， 或 是 通过 接收 方 独立 地 指明 它 
们 的 兴趣 ， 就 可 以 完成 这 项 工作 。 然 后 网 络 只 负责 向 预期 的 / 感 兴趣 的 收 件 方 来 发 送 流量 。 
实现 组 播 比 广播 更 具 挑 战 性 ， 因 为 组 播 状 态 (multicast state) (信息 ) 必须 由 主机 和 路 由 器 来 
保持 ， 以 说 明 哪 些 接收 方 对 哪 类 流量 有 兴趣 。 在 组 播 TCP/IP 模型 中 ， 接 收 方 通过 指明 组 播 
地 址 和 可 选 源 列 表 来 表明 它们 对 希望 接收 的 流量 的 兴趣 。 这 个 信息 作为 主机 和 路 由 器 中 的 软 
AKA (soft state) ( 见 第 4 章 ) 来 维持 ， 这 意味 着 它 必 须 定期 更 新 或 是 超时 删除 。 当 这 发 生 时 ， 
组 播 流 量 的 交付 要 么 停止 ， 要 么 恢复 为 广播 。 

广播 的 低 效 不 仅 体现 在 广域网 中 ， 此 时 它们 是 极其 严重 的 ， 同 时 也 体现 在 局 域 网 和 企业 
网 络 中 。 在 相同 LAN 或 VLAN 上 可 以 到 达 的 每 个 主机 必须 处 理 广播 分 组 。 卫 组 播 提 供 了 一 
个 更 有 效 的 方式 以 执行 相同 类 型 的 任务 。 如 果 正 确 地 使 用 IP 组 播 ， 只 有 那些 在 通信 中 参与 
或 感 兴趣 的 主机 需要 处 理 相 关 的 分 组 ， 流 量 只 会 被 承载 于 它 将 被 使 用 的 链 路 上 ， 并 且 只 有 任 
意 组 播 数据 报 的 一 个 副本 被 承载 于 任意 的 这 样 的 链 路 上 。 为 了 使 组 播 工作 ， 和 希望 参与 通信 的 
应 用 程序 需要 一 种 机 制 来 发 布 其 意愿 的 协议 实现 。 然 后 主机 软件 可 以 安排 接收 与 应 用 程序 的 
条 件 相 匹配 的 分 组 。 

IP 组 播 在 诸如 以 太 网 的 链 路 层 网 络 中 ， 起 初 使 用 一 种 基于 组 寻 址 工作 方式 的 设计 。 在 
这 种 方法 中 ， 每 个 站 点 选择 它 愿意 接收 流量 的 组 地 址 ， 而 不 考虑 发 送 方 。 因 为 对 于 发 送 方 的 
身份 是 不 敏感 的 ， 所 以 这 种 方法 有 时 也 被 称 为 任 源 组 播 (ASM)。 由 于 卫 组 播 已 经 演化 了 ， 
另 一 种 代替 方式 已 经 研究 出 来 ， 它 对 于 发 送 方 的 身份 是 敏感 的 ， 被 称 为 特定 源 组 播 (SSM) 
[RFC4607]， 它 允许 终端 站 点 明确 地 包含 或 排除 从 一 组 特定 发 送 方 发 送 到 一 个 组 播 组 的 流量 。 
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SSM 服务 模型 比 ASM 更 容易 实现 ， 这 主要 是 因为 在 广 域 组 播 中 ， 确 定单 个 源 的 位 置 比 确定 
很 多 源 的 位 置 更 容易 。 然 而 ， 在 局 部 区 域 ， 支持 ASM 或 SSM 的 大 部 分 机 器 是 相同 的 ， 所 以 
我 们 把 它们 放 在 一 起 ， 并 且 只 有 当 差 异 很 重要 时 ， 才 解释 这 些 差异 。 下 面 我 们 开始 研究 在 具 
有 组 播 功 能 的 IEEE LAN 技术 中 ， 卫 组 播 流量 是 如 何 使 用 MAC 层 组 播 地 址 的 。 


9.3.1 将 IP 组 播 地 址 转换 为 802 MAC/ 以 太 网 地 址 


在 类 似 以 太 网 的 网 络 中 ， 使 用 单 播 地 址 时 ，ARP ( 见 第 4 章 ) 通常 根据 目的 地 的 IPv4 地 
址 确定 其 MAC 地址。 在 IPv6 中 ，ND 起 着 类 似 的 作用 ( 见 第 8 章 )。 当 我 们 查看 早期 的 广播 
时 ,我 们 注意 到 ， 有 一 个 众所周知 的 广播 MAC 地址， 可 以 用 于 达到 一 个 LAN 或 VLAN 上 
的 所 有 站 点 。 当 我 们 想 要 发 送 组 播 流量 时 ， 什 么 样 的 目的 地 MAC 地 址 应 该 放置 于 链 路 层 帧 
中 呢 ? 理想 的 情况 下 ， 我 们 不 必 使 用 协议 报 文 来 确定 适当 的 MAC 地 址 ， 相 反 ， 可 以 只 是 简 
单 地 将 一 个 了 组 播 地 址 直接 映射 到 一 些 对 应 的 MAC 地址。 为 了 了 解 这 是 如 何 完成 的 ,我们 
会 专注 于 IEEE 802 网 络 ， 特 别 是 以 太 网 和 Wi-Fi。 这 些 网 络 代表 了 使 用 全 组 播 的 最 常见 的 
网 络 类 型 。 首 先 ， 我们 将 讨论 与 IPv4 相关 的 映射 如 何 进行 ， 然 后 转移 到 在 IPv6 中 使 用 的 略 
有 不 同 的 方法 。 

为 了 在 链 路 层 网 络 中 有 效 地 承载 IP 组 播 ， 在 IP 层 和 链 路 层 帧 的 数据 分 组 和 地 址 之 间 
应 该 有 一 个 一 对 一 的 映射 。IANA 拥有 IEEE 组 织 唯一 标识 符 (以 下 简称 OUI， 或 非 正 式 
称 为 以 太 网 地 址 前 缀 ) 00:00:5e。 有 了 它 ，IANA 就 被 赋予 权限 去 使 用 以 01:00:5e 开始 的 
组 (组 播 ) MAC 地 址 以 及 以 01:00:5e 开始 的 单 播 地 址 。 该 前 绥 被 用 作 以 太 网 地 址 的 高 序 24 
位 ， 这 意味 着 此 块 包括 范围 在 00:00:5e:00:00:00 到 00:00:5e:ff:ff:ff 的 单 播 地 址 ， 以 及 范围 在 
01:00:5e:00:00:00 到 01:00:5e:ff:ff:ff 的 组 播 地 址 。 除 了 IANA 的 其 他 组 织 也 拥有 地 址 块 ， 但 
只 有 IANA 将 其 空间 的 一 部 分 用 于 支持 IP 组 播 。 

IANA 分 配 一 半 的 组 地 址 块 用 于 识别 IEEE 802 LAN 上 的 IPv4 组 播 流量 。 这 意味 着 ， 对 
应 到 IPv4 组 播 的 以 太 网 地 址 范围 为 01:00:5e:00:00:00 到 01:00:5e:7f:ff:ff。 


注意 ”此 处 我 们 使 用 互联 网 标准 位 序 来 表示 ， 即 内 存 中 位 出 现 的 顺序 。 这 是 大 多 数 
程序 员 和 系统 管理 员 处 理 的 方式 。JEEE 文档 中 使 用 位 的 传输 顺序 。 


IPV4 地 址 到 它们 对 应 的 IEEE 802 形式 的 链 路 层 地 址 的 映射 如 图 9-2 所 示 。 
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图 9-2 IPv4- 到 IEEE 802 MAC 组 播 地 址 的 映射 使 用 IPv4 组 播 地址 的 低 序 23 位 作为 以 01:00:5e 开始 
的 MAC 地 址 的 后 级 。 因 为 只 使 用 了 28 个 组 地 址 位 中 的 23 位 ，32 个 组 地 址 被 上 映射 到 相同 的 
MAC 层 地 址 











回忆 第 2 章 ， 所 有 的 IPv4 组 播 地 址 都 被 包含 在 从 224.0.0.0 到 239.255.255.255 的 地 址 空 
间 中 (以 前 称 为 D 类 地 址 空间 )。 所 有 这 样 的 地 址 在 高 序 位 共享 一 个 共同 的 4 位 序列 1110。 
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因此 ， 有 32 - 4 = 28 位 可 用 来 编码 整个 空间 ， 即 22 = 268 435 456 个 组 播 IPv4 地 址 (也 称 
为 组 ID )。 对 于 IPv4，IANA 的 政策 是 分 配 一 半 的 组 地 址 用 于 支持 IPv4 组 播 ， 这 意味 着 所 有 
的 268 435 456 个 组 播 组 ID 需要 被 映射 到 只 包含 2”= 8 388 608 个 唯一 条 目的 链 路 层 地 址 空 
间 。 因 此 ， 映 射 是 非 唯一 的 (nonunique)。 即 多 个 IPv4 组 ID 被 映射 到 相同 MAC 层 组 地 址 。 
具体 来 说 ，2”/2”= 2° = 32 个 不 同 的 IPv4 组 播 组 ID 被 映射 到 每 个 组 地 址 。 例 如 ， 组 播 地 址 
224.128.64.32 (十 六 进 制 为 e0.80.40.20 ) 和 224.0.64.32 (十 六 进 制 为 e0.00.40.20 ) 都 被 映射 
到 以 太 网 地 址 01:00:5e:00:40:20。 

对 于 IPv6，16 位 的 OUI 十 六 进 制 前 级 是 33:33。 这 意味 着 ，IPv6 地 址 的 最 后 32 位 可 以 
用 来 形成 链 路 层 地 址 。 因 此 ， 任 何以 相同 的 32 位 结束 的 地 址 映射 到 相同 的 MAC 地 址 ( 见 
图 9-3 )。 由 于 所 有 的 了 Pv6 组 播 地 址 以 任 开 始 ， 随 后 的 8 位 用 于 标志 和 范围 信息 ， 这 就 留 下 
128 - 16 = 112 位 用 于 表示 2'" AH. Att, MAC 层 地 址 的 32 位 可 用 来 编码 这 些 组 ， 可 能 
有 多 达 2'7/2? = 2 个 组 映射 到 相同 的 MAC 地 址 ! 














fea IPv6 组 地 址 中 的 低 112 位 ( 非 等 比例 ) = 
EE A r 
ehhi | A o] IPv6 组 地 址 中 的 低 32 位 | 
IPv6 组 播 地 址 D : 
位 替换 用 复制 32 位 a 
0 15 16 47 
33 33 
IEEE 802 
MAC 地 址 例子 : fpm2::1:ff68:12cb 一 33:33: 作 68:12:cb 


图 9-3 IPv6 到 IEEE-802 MAC 组 播 地 址 映射 使 用 IPv6 组 播 地 址 的 低 序 32 位 作为 以 33:33 开始 的 
MAC 地 址 的 后 缀 。 因 为 只 使 用 了 112 个 组 播 地 址 位 中 的 32 位， 所 以 2” 个 组 映射 到 相同 的 
MAC 层 地 址 


9.3.2 例子 


在 前 面 的 例子 中 ,我 们 使 用 一 个 子 网 广播 地 址 ， 以 确定 所 有 的 本 地 子 网 中 的 主机 ， 它 
们 将 响应 广播 ICMPv4 回 显 请 求 报 文 。 在 这 里 ， 因 为 我 们 可 以 使 用 组 播 地 址 来 确定 提供 特 
定 服务 的 主机 ， 我 们 可 以 向 那些 响应 组 播 DNS(mDNS [CK11]) 地 址 224.0.0.251 的 主机 发 送 
ICMPv4 回 显 请 求 报 文 。 


Linux% ping 224.0.0.251 

PING 224.0.0.251 (224.0.0.251) 56(84) bytes of data. 

64 bytes from 10.0.0.2: icmp_seq=1 ttl=60 time=1.10 ms 

64 bytes from 10.0.0.11: icmp_seq=1 ttl=60 time=1.60 ms (DUP!) 
64 bytes from 10.0.0.120: icmp_seq=1 ttl=64 time=2.59 ms (DUP!) 
--- 224.0.0.251 ping statistics --- 

1 packets transmitted, 1 received, +2 duplicates, 

0% packet loss, time 0ms 

rtt min/avg/max/mdev = 1.109/1.767/2.590/0.615 ms 


在 这 里 ， 主 机 10.0.0.2, 10.0.0.11 和 10.0.0.120 全 部 响应 ， 表 明 它 们 订阅 了 mDNS 4. 
请 注意 ， 这 些 主机 和 我 们 使 用 广播 地 址 10.0.0.127 时 响应 的 主机 是 不 相同 的 。 这 并 不 奇怪 ， 
因为 不 是 所 有 的 主机 都 支持 mDNS 协议 。 
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注意 41746 DNS (mDNS 的 ) 是 一 个 服务 ， 它 旨 在 支持 零 配置 (容易 的 系统 和 
设备 配置 )。mDNS 已 经 由 苹果 系统 支持 ， 它 作为 Bonjour 的 一 部 分 。 微 软 已 经 
推出 的 一 种 替代 协议 也 有 类 似 的 功能 ， 被 称 为 链 路 本 地 组 播 名 称 解析 ( LLMNR) 
[RFC4795]。 目 前 这 两 个 协议 都 不 是 IETF 内 的 互联 网 标准 ， 但 现在 ，mDNS 具有 
比 LLMNR 更 长 的 历史 。 有 关 详 细 信 息 请 参阅 第 11 章 。 


对 于 IPv6， 我 们 可 以 使 用 ICMPv6 回 显 请 求 报 文 执行 相同 的 操作 。 


Linux% ping6 -I eth0 ££02::fb 
PING ££02::fb(f£02::fb) from fe80::208:74ff:fe93:c83c eth0: 
56 data bytes 
64 bytes from fe80::217:f2ff:fee7:6d91: icmp seq=1 ttl=64 time=2.76 ms 


--- ££02::fb ping statistics --- 
1 packets transmitted, 1 received, 0% packet loss, time Oms 
rtt min/avg/max/mdev = 2.768/2.768/2.768/0.000 ms 


请 注意 ， 在 这 种 情况 下 ， 我 们 提供 了 传 出 接口 作为 ping6 程序 的 输入 。 这 人 允许 程序 在 
Windows XP 中 选择 合适 的 传 出 IPv6 地 址 。 在 图 9-4 中 我 们 可 以 看 到 ， 选 择 的 地 址 是 与 设备 
eth0 相关 的 本 地 链 路 地 址 。 


ping6-mdns.tr - Wireshark 


:fb) 
+. = IG bit: Group address (multicast/broadcast) 


«- = LG bit: Locally administered address (this is NOT the factory default) 


+. 0000 0000 sees = Traffic class: 0x00000000 
0000 0000 0000 0000 0000 = Flowlabel; 0x00000000 
Payload length: 64 
Next header: ICMPV6 (Ox3a) 
Hop limit: 64 
Source: fe80::208:74Ff:fe93:c83c (fe80::208:74ff:fe93:c83c) 
8B:74:93:c8:3C (00:08:74:93:c8:3c)] 
) 





9-4 ICMP 回 显 请 求 报 文 由 与 eth0 网 络 接口 相关 的 本 地 链 路 单 播 地 址 发 送 到 组 播 地 址 fn2::fb。 应 
答 包含 发 送 方 的 IPv6 本 地 链 路 IPv6 地 址 


被 识别 为 ICMPv6 回 显 请 求 / 应答 报 文 的 数据 分 组 中 的 标识 符 〈Identifier) 字段 设置 为 
0x1d47， 序 列 号 (Sequence Number) 字段 设置 为 1。 在 所 有 情况 下 ， 源 IPv6 地 址 是 本 地 链 
路 的 。 请 求 的 目的 地 址 是 组 播 地 址 fn2::fb， 它 被 映射 到 MAC 地 址 33:33;00:00:00:fb。 回 显 
应 答 报 文 由 响应 方 的 本 地 链 路 单 播 地 址 fe80::217:f2ff:fee7:6d91， 直 接 发 送 到 发 送 方 的 本 地 
链 路 单 播 地 址 fe80::208:74 FF:fe93:c83c。 需 要 注意 的 是 ， 回 显 应 答 报 文 的 发 送 方 安排 使 用 相 
同 范围 内 的 源 IPv6 地 址 ( 见 在 第 5 章 中 源 地 址 选择 的 讨论 ， 并 比较 图 9-4 和 图 5-16). 


9.3.3 发 送 组 播 数据 报 
当 发 送 任意 的 IP 数据 分 组 时 ， 必 须 决 定 使 用 哪个 地 址 和 接口 。 对 于 IPv6 来 说 尤其 
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如 此 ， 因 为 IPv6 中 每 个 接口 有 多 个 地 址 被 认为 是 正常 的 。 为 了 帮助 确定 这 一 点 ,我们 可 
以 看 一 下 目前 主机 中 的 转发 表 。 在 Windows 或 Linux 操作 系统 中 ， 都 可 以 使 用 netstat 命 
令 。 下 面 是 在 Windows Vista (更 高 版 本 使 用 相同 的 格式 ) 上 IPv4 和 1IPv6 的 路 由 表 的 输 
出 情况 。 

C:\> netstat -rn 


。 interface list ... 


f IPv4 Route Table 


Active Routes: 


Network Destination Netmask Gateway Interface Metric 
0.0.0.0 0.0.0.0 10.0.0.1 10.0.0.57 25 
224.0.0.0 240.0.0.0 On-link 127.0.0.1 306 
224.0.0.0 240.0.0.0 On-link 169.254.57.240 286 
224.0.0.0 240.0.0.0 On-link 10.0.0.57 281 
255.255.255.255 255.255.255.255 On-link 127.0.0.1 306 
255.255.255.255 255.255.255.255 On-link 169.254.57.240 286 
255.255.255.255 255.255.255.255 On-link 10.0.0.57 281 


Persistent Routes: 
None 


IPv6 Route Table 


Active Routes: 


If Metric Network Destination Gateway 

9 281 ::/0 £e80::204:5aff:fe9f:9e80 
a. 306 ££00::/8 On-link 
10 286 ££00::/8 On-link 

9 281 ££00::/8 On-link 


Persistent Routes: 
None 


从 表 中 我 们 可 以 看 到 ，IPv4 流量 的 默认 路 由 是 使 用 接口 10.0.0.57 转向 10.0.0.1。 虽 
然 这 确实 与 组 播 流 量 匹配 ， 但 是 有 其 他 更 具体 的 条 目 。 列 出 的 条 目 224.0.0.0/4 ( 子 网 掩 
码 240.0.0.0) 说 明 三 个 不 同 的 接口 可 以 承载 传 出 的 组 播 流 量 。 具 有 最 低 路 点 数 的 接口 
(10.0.0.57， 跃 点 数值 为 281 ) 最 优先 选择 ， 所 以 如 果 应 用 程序 没有 指定 ， 就 会 使 用 它 。 对 于 
IPv6， 所 有 的 组 播 地 址 以 在 开始 ， 没 有 广播 地 址 ， 所 以 接口 1、9 和 10 都 可 以 使 用 。 接 口 9 
(这 恰好 是 IPv4 中 的 相同 接口 和 IPv6 单 播 流量 的 默认 接口 ) 具有 最 低 跃 点 数 。 指 明 接 口 拥有 
的 I 了 P 地址 的 额外 信息 可 以 使 用 Windows 命令 ipconfig/all 来 确定 。 

在 Linux 上 的 输出 对 于 不 同 的 协议 族 是 分 开 的 (如 IPv4 和 IPv6 )。 通 过 向 netstat 命令 
提供 不 同 的 参数 ， 可 以 指明 哪个 版 本 的 卫 协议 (或 其 他 的 ) 是 感 兴趣 的 ， 从 而 产生 不 同 的 输 
出 。 对 于 IPv4， 没有 任何 显示 ， 因 为 没有 特殊 的 组 播 条 目 ; 传统 的 默认 路 由 处 理 组 播 流 量 。 
然而 ， 对 于 IPv6， 我 们 可 以 看 到 以 下 内 容 : 


Linux% netstat -rn -A inet6 

Kernel IPV6 routing table 

Destination Next Hop Flags Metric Ref Use Iface 
££00::/8 23 U 256 0 0 eth0 


在 这 种 情况 下 ， 没 有 直接 的 “下 一 跳 ”， 所 以 未 指定 地 址 ( ::) 在 表 中 列 出 ， 但 我 们 可 以 
看 到 传 出 接口 是 eth0。Flags 列 只 包含 U， 表 明 该 路 由 可 用 ， 但 缺少 G 标志 表明 它 是 链 路 上 
的 路 由 ， 不 需要 转发 到 路 由 器 。 
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9.3.4 接收 组 播 数据 报 


组 播 的 基本 是 在 主机 给 定 的 接口 上 进程 加 入 (joining) 或 离开 (leaving) 一 个 或 多 个 组 
播 组 的 概念 。( 我 们 使 用 术语 进程 ( process) 代表 由 操作 系统 执行 的 程序 ， 往 往 代 表 一 个 用 
Po) 在 一 个 给 定 接口 上 的 组 播 组 的 成 员 资 格 是 动态 的 ， 它 随 进 程 加 入 或 离开 组 而 改变 。 除 了 
加 入 或 离开 组 ， 如 果 进 程 希望 指定 它 希 望 收听 或 排除 的 源 ， 就 需要 额外 的 方法 。 这 些 是 支持 
组 播 的 主机 上 的 任意 API 的 必需 部 分 。 组 的 成 员 资格 与 接口 相关 ， 因 此 我 们 使 用 限定 词 “ 接 
H”, 一 个 进程 可 以 在 多 个 接口 上 加 入 同一 组 ， 也 可 以 加 入 同一 接口 上 的 多 个 组 , 或 是 其 中 
的 任意 组 合 。 


例子 
使 用 操作 系统 特定 的 命令 ， 可 以 确定 每 个 接口 上 在 使 用 的 组 播 组 。 在 Windows 中 ， 该 
命令 是 netsh 包 的 一 部 分 。 对 于 IPv6， 它 按 如 下 方式 工作 (对 于 IPv4， 使 用 ip 替代 ipv6 ): 


C:\> netsh interface ipv6 show joins 
Interface 1: Loopback Pseudo-Interface 1 
Scope References Last Address 


Interface 8: Local Area Connection 


Scope References Las Address 

0 0 Yes ££012¢1 

0 0 Yes E£FO2Z2 3.1 

0 1 Yes ££022 sc 

0 1 Yes ££02's £123 

0 1 Yes £E£02521:ffde: fc85 


在 这 里 我 们 可 以 看 到 ，IPv6 是 如 何 使 用 在 每 个 接口 上 的 几 个 组 播 地 址 的 。 第 一 个 接口 
是 一 个 环 回 、 本 地 接口 。 在 它 上 面 使 用 的 唯一 组 播 组 是 本 地 链 路 范围 内 的 简单 服务 发 现 协议 
(SSDP) 组 播 地 址 ， 如 我 们 在 第 7 章 中 所 看 到 的 。 


注意 SSDP 在 一 个 由 微软 和 惠普 开发 的 互联 网 草案 (已 过 期 ) [GCLG99] 中 描述 。 
SSDP 也 运行 在 IPv4 中 ， 使 用 地 址 239.255.255.250 和 UDP 端口 1900。 


在 其 他 网 络 接口 中 ， 地 址 ff01::1 (本 地 节点 所 有 节点 地 址 ) 和 ff02::1 (本 地 链 路 所 有 节 
点 地 址 ) 显示 了 所 有 节点 的 加 入 ，ff02::c 显示 了 SSDP 的 使 用 。 下 一 个 地 址 ff02::1:3 用 于 支 
持 LLMNR， 它 是 前 面 提 到 的 一 种 本 地 组 播 名 称 解 析 系 统 ， 并 且 在 第 11 章 中 将 讨论 更 多 细 
节 。 最 后 ， 地 址 ff02::1:ffde:fe85 是 该 节点 的 请 求 节点 组 播 地 址 ， 在 IPv6 ND 中 使 用 。 回 想 
— F, 在 PPv6 中 ,确定 邻居 的 MAC 地 址 是 通过 使 用 组 播 ICMPv6 ND 报 文 完成 的 ， 与 在 
IPv4 中 使 用 的 ARP 机 制 相对 应 。 

在 Linux 下 ， 使 用 netstat 命令 显示 IP HARR : 


Linux% netstat -gn 
IPV6/IPV4 Group Memberships 
Interface RefCnt Group 


::1:£f£2a:1988 
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此 命令 的 输出 包括 多 个 接口 以 及 IPv4 和 IPv6 的 加 入 信息 。 在 这 种 情况 下 ， 我 们 看 到 在 
以 太 网 接口 (ethl1 ) 和 本 地 环 回 接口 (lo) 上 的 224.0.0.1 (所 有 主机 )。 我 们 还 可 以 看 到 每 个 M8) 
接口 的 本 地 链 路 范围 所 有 节点 的 绑 定 。 最 后 ， 请 求 节点 地 址 是 ff02::1:ff2a:1988。 


注意 ”使 用 IP 组 播 ， 一 个 进程 可 以 向 一 个 组 播 组 发 送 而 不 用 加 入 它 。 更 常见 的 是 ， 
进程 加 入 它们 在 一 个 或 多 个 特定 接口 上 正在 交互 的 组 播 组 。 在 套 接 字 API 中 有 一 

个 特殊 的 选项 (IP_MULTICAST _ LOOP) 来 改变 相同 主机 上 进程 之 间 的 组 播 流量 被 
处 理 的 方式 ， 该 主机 是 相同 接口 上 同一 组 的 成 员 。 在 UNIX 中 ， 此 选项 用 于 发 送 路 
径 ， 这 意味 着 ， 如 果 启 用 该 选项 ， 在 同一 台 主 机 上 的 其 他 进程 接收 组 播 数据 报 ， 即 
使 它们 禁用 该 选项 。 相 反 ， 在 Windows 中 ， 该 选项 适用 于 接收 路 径 ， 这 意味 着 局 
用 该 选项 的 任何 进程 接收 来 自 同一 主机 上 的 其 他 应 用 程序 的 组 播 流 量 ， 即 使 它们 禁 
用 该 选项 。 


9.3.5 主机 地 址 过 滤 


为 了 了 解 操 作 系统 进程 如 何 为 程序 已 加 入 的 组 播 组 接收 组 播 数 据 报 ， 回 忆 第 3 章 ， 每 当 
一 个 帧 因 可 能 会 被 接收 而 交 给 过 滤器 (例如 ， 通 过 一 个 网 桥 或 交换 机 ) 时 ， 过滤 (filtering) 
就 在 每 个 主机 的 网 络 接口 卡 (NIC) 上 发 生 。 图 9-5 说 明了 这 是 如 何 发 生 的 。 







EF 
(没有 进程 与 端口 绑 定 ) 


丢弃 EF 
(未 知 的 目的 IPv4 地 址 ) (未 知 的 目的 IPv6 地 址 ) 


丢弃 
(未 知 的 目的 MAC 地 址 ) 


分 组 到 达 


图 9-5 每 层 实现 对 接收 报 文 的 部 分 过 滤 。MAC 地 址 过 滤 可 以 发 生 于 软件 或 硬件 中 。 更 便宜 的 NIC E 
往 倾向 于 向 软件 强加 更 大 的 处 理 负担 ， 因 为 它们 在 硬件 上 执行 较 少 的 功能 


在 一 个 典型 的 交换 式 以 太 网 环境 中 ,广播 和 组 播 帧 沿 着 在 交换 机 之 间 形 成 的 一 棵 生成 树 
É VLAN 中 的 所 有 段 被 复制 。 这 样 的 帧 被 交付 至 每 台 主机 上 的 NIC， 它 将 会 检查 帧 的 正确 性 
(使 用 CRC)， 并 且 决 定 是 否 接收 该 帧 ， 并 将 其 交付 给 设备 驱动 程序 和 网 络 协议 栈 。 通 常情 况 
F, NIC 只 接收 目的 地 址 是 接口 的 硬件 地 址 或 广播 地 址 的 那些 帧 。 然 而 ， 当 涉及 组 播 帧 时 ， 
情况 就 更 加 复杂 了 。 

NIC 往往 有 两 类 。 一 类 执行 基于 组 播 硬 件 地 址 的 散 列 值 的 过 滤 ， 主 机 软件 可 以 表达 对 
该 硬件 地 址 的 兴趣 ， 这 意味 着 由 于 散 列 冲突 ， 一 些 不 需要 的 帧 总 是 可 以 通过 。 男 一 类 侦 听 组 
播 地 址 的 一 张 有 限 表 ， 这 意味 着 ， 如 果 主 机 需要 接收 超过 表 中 能 够 容纳 的 更 多 的 组 播 地 址 的 
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W, NIC 将 进入 一 种 “组 播 混 杂 ” 模 式 ， 在 这 种 情况 下 ， 所 有 的 组 播 流量 将 会 交 给 主机 软件 。 
因此 ， 两 种 类 型 的 接口 需要 设备 驱动 程序 或 高 层 软 件 执行 检查 ， 以 确定 接收 到 的 帧 是 否 真 的 
需要 。 虽 然 接口 进行 完善 的 组 播 过 滤 (基于 48 位 的 硬件 地 址 )， 但 是 由 于 从 组 播 IPv4 或 IPv6 
地 址 到 48 位 的 硬件 地 址 的 映射 不 是 唯一 的 ， 过 滤 还 是 必需 的 。 尽 管 存 在 不 完美 的 地 址 映射 
和 硬件 过 滤 ， 组 播 仍然 比 广播 更 高 效 。 

对 于 支持 多 条 目地 址 表 的 NIC 来 说 ,将 每 个 接收 到 的 帧 的 目的 地 址 与 该 表 比 较 ， 如 果 
在 表 中 发 现 该 地 址 ， 该 帧 由 设备 驱动 程序 接收 和 处 理 。 此 表 的 条 目 由 设备 驱动 程序 软件 和 协 
议 栈 的 其 他 层 (如 IPv4 和 IPv6 的 实现 ) 联合 管理 。 实 现 这 种 类 型 过 滤器 的 另 一 种 方法 是 对 
目的 地 址 使 用 散 列 函数 ， 形 成 一 个 到 ( 较 小 的 ) 二 元 向 量 的 索引 。 当 向 量 中 被 索引 的 条 目 包 
含 一 个 1 位 时 ， 对 应 的 地 址 被 视 为 可 以 接受 ， 并 进一步 处 理 该 帧 。 这 种 做 法 可 以 节省 NIC 的 
内 存 ， 但 因为 在 散 列 函 数 中 的 冲突 ， 一 些 不 应 该 接收 的 帧 可 能 被 认为 是 可 以 接受 的 。 然 而 ， 
这 不 是 一 个 致命 的 问题 ， 因 为 栈 中 较 高 层 也 执行 过 滤 ， 并 且 当 帧 不 应 该 被 丢弃 时 ,没有 帧 被 
丢弃 ( 即 ,不 存在 漏 报 , 但 有 可 能 存在 误 报 )。 


注意 根据 制造 商 的 不 同 ，NIC 的 具体 功能 也 不 同 。 作 为 一 个 例子 ， 英特尔 
82583V 以 太 网 控制 器 包括 一 个 16 项 的 精确 匹配 表 ( 单 播 或 组 播 )， 一 个 4096 位 的 
组 播 目 的 地 散 列 过 滤器 ， 并 且 除 了 基于 多 达 4096 个 VLAN 标签 的 过 滤 外 ， 还 支持 
混杂 接收 和 混杂 组 播 接 收 。 


一 旦 NIC 硬件 验证 一 个 帧 是 可 以 接受 的 ( 即 CRC 是 正确 的 ,任何 VLAN 标签 匹配 ， 目 
的 MAC 地 址 与 一 个 或 多 个 NIC 表 中 一 个 地 址 条 目 相 匹配 )， 该 帧 被 传递 到 设备 驱动 器 程序 ， 
在 此 执行 另外 的 过 滤 。 首 先 ， 帧 类 型 必须 指定 一 种 被 支持 的 协议 〈 例 如 ，IPv4、IPv6、ARP 
等 )。 其 次 ， 可 以 执行 男 外 的 组 播 过 滤 以 检查 主机 是 否 属于 被 寻 址 的 组 播 组 (通过 目的 亿 地 
址 说 明 )。 这 对 于 可 能 产生 误 报 的 NIC 来 说 是 必要 的 。 

然后 ， 设 备 驱 动 程序 将 该 帧 传递 到 下 一 层 ， 例 如 ， 如 果 帧 类 型 指定 一 个 他 数据 报 ， 则 
为 IP 层 。 基 于 源 和 目的 IP 地 址 ，IP 进行 更 多 的 过 滤 ， 如 果 一 切 没 有 问题 ， 它 将 该 数据 报 向 
上 传递 到 下 一 层 (如 TCP 或 UDP)。 每 次 UDP M IP 收 到 一 个 数据 报 ， 它 执行 基于 目的 端口 
号 的 过 滤 ， 有 时 也 基于 源 端 口号 。 如 果 当 前 没有 进程 正在 使 用 该 目的 端口 ， 数 据 报 就 被 丢 
弃 ， 并 生成 一 个 ICMPv4 或 ICMPv6 端口 不 可 达 报 文 。( TCP 基于 它 的 端口 号 执行 类 似 的 过 
滤 。) 如 果 UDP 数据 报 存在 校 验 和 错误 ，UDP 默默 丢弃 它 。 

研究 组 播 寻 址 特征 背后 的 主要 动机 之 一 是 避免 广播 的 开销 。 考 虑 一 个 设计 为 使 用 UDP 
广播 的 应 用 程序 。 如 果 网 络 (或 VLAN) 中 有 50 台 主 机 ， 但 只 有 20 台 参 与 该 应 用 ,每 当 20 
台 主 机 中 的 一 台 发 送 一 个 UDP 广播 时 ， 在 UDP 数据 报 被 丢弃 之 前 ， 它 要 一 路 向 上 直至 UDP 
层 ， 其 他 30 台 非 参与 主机 不 得 不 处 理 该 广播 。 该 UDP 数据 报 被 这 30 台 主 机 丢弃 ， 因 为 目 
的 端口 号 没有 在 使 用 。 组 播 的 目的 就 是 减少 对 该 应 用 没有 兴趣 的 主机 的 负担 。 使 用 组 播 ， 一 
台 主 机 明确 地 加 入 一 个 或 多 个 组 播 组 。 如 果 可 能 的 话 ，NIC 被 告知 主机 属于 哪个 组 播 组 ， 并 
A RASS IP 层 组 播 组 相关 联 的 组 播 帧 被 允许 通过 NIC 中 的 过 滤器 。 这 一 机 制 所 提供 的 
就 是 使 主机 上 的 开销 更 小 ， 作 为 代价 ， 需 要 在 管理 组 播 地 址 和 组 成 员 中 添加 额外 的 复杂 性 。 


94 互联 网 组 管理 协议 和 组 播 侦 听 发 现 协议 
到 目前 为 止 ， 我 们 已 经 从 主机 的 角度 讨论 了 组 播 数据 报 如 何 传输 、 过 滤 和 接收 。 当 组 
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播 数据 报 在 广域网 或 是 在 跨越 多 个 子 网 的 企业 中 转发 时 ， 我 们 要 求 ， 组 播 路 由 (mnulticast 
routing) 应 该 由 一 个 或 多 个 组 播 路 由 器 启动 。 这 种 情况 更 加 复杂 ， 因 为 为 了 合理 地 安排 要 交 
付 的 组 播 流 量 ， 组 播 路 由 器 需要 了 解 哪些 主机 对 什么 组 播 组 感 兴趣 。 它 们 也 执行 一 个 特定 的 
程序 ， 称 为 反 向 路 径 转 发 ( RPF) 检查 。 此 过 程 在 到 达 的 组 播 数据 报 的 源 地 址 上 进行 路 由 查 
找 。 只 有 当 路 由 的 传 出 接口 与 数据 报到 达 的 接口 相 匹 配 时 ， 数 据 报 才 转 发 。RPF 检查 对 于 避 
免 组 播 回 路 来 说 是 非常 重要 的 。 组 播 路 由 在 很 大 程度 上 是 独立 于 由 IP 路 由 器 提供 的 传统 的 
单 轿 路 由 的 。 然 而 ， 一 些 组 播 路 由 的 功能 需要 IPv6 ND 协议 ( 见 第 8 BE) 来 正常 地 操作 。 

两 个 主要 的 协议 用 于 允许 组 播 路 由 器 了 解 附近 的 主机 感 兴趣 的 组 : IPv4 使 用 的 互联 网 组 
管理 协议 (IGMP) 和 IPv6 使 用 的 组 播 侦 听 发 现 (MLD) 协议 。 两 者 都 由 支持 组 播 的 主机 和 
路 由 器 使 用 ， 并 且 协 议 非 常 相 似 。 这 些 协 议 让 LAN (VLAN) 上 的 组 播 路 由 器 知道 哪些 主机 
当前 属于 哪些 组 播 组 。 路 由 器 需要 此 信息 ， 这 样 它们 知道 哪些 组 播 数据 报 转发 到 哪些 接口 。 
在 大 多 数 情况 下 ， 组 播 路 由 器 只 要 求知 道 至 少 一 个 侦 听 主机 通过 一 个 特定 接口 是 可 达 的 ， 因 
为 链 路 层 组 播 寻 址 (假设 它 支 持 ) 允许 组 播 路 由 器 发 送 链 路 层 组 播 帧 ， 这 些 帧 将 被 所 有 的 感 
兴趣 的 侦 听 方 接收 。 这 允许 一 个 组 播 路 由 器 完成 其 工作 ， 而 不 用 记录 每 个 接口 上 的 单个 主 
机 ， 它 们 可 能 只 对 特定 组 的 组 播 流量 感 兴趣 。 

随 着 时 间 的 推移 ，IGMP 已 经 演变 了 ， 并 且 [RFC3376] 定义 了 第 3 版 (到 写作 的 时 候 
最 新 的 版 本 )。MLD 在 并 行 发 展 ， 其 目前 版 本 (2 ) 在 [RFC3810] 中 定义 。IGMPv3 和 /或 
MLDv2 被 要 求 支持 SSM。 可 以 查看 [RFC4604] 获取 每 个 组 播 组 只 使 用 一 个 单一 源 时 这 些 协 
议 是 如 何 受 限制 的 更 多 详细 情况 。 

IGMP 版 本 1 是 第 一 个 广泛 使 用 的 IGMP 版 本 。 版 本 2 添加 了 更 迅速 地 离开 组 (也 被 
MLDv1 支持 ) 的 能 力 。IGMPv3 和 MLDv2 添加 了 选择 组 播 流量 源 的 能 力 ， 并 要 求 部 署 SSM, 
然而 IGMP 是 IPv4 使 用 的 一 个 单独 的 协议 ,而 MLD 是 ICMPv6( 见 第 8 章 ) 的 真正 的 一 部 分 。 

图 9-6 显示 了 IPv4 (IPv6 ) 具有 组 播 功能 的 路 由 器 如 何 使 用 IGMP (MLD)。 这 样 的 路 由 
器 关注 于 确定 在 它 的 每 个 连接 的 接口 上 有 哪些 感 兴趣 的 组 播 组 。 这 些 路 由 器 需要 此 信息 ， 以 
避免 简单 地 从 每 个 接口 广播 出 所 有 的 流量 。 





广域网 
(例如 互联 网 ) 


| 


一 一 > IGMP/MLD 查 询 
= > IGMP/MLD 报 告 


图 9-6 组 播 路 由 器 定期 向 每 个 连接 的 子 网 发 送 IGMP (MLD) 请 求 ， 以 确定 哪些 组 和 源 对 连接 的 主机 
来 说 是 感 兴趣 的 。 主 机 使 用 报告 响应 ， 说 明 哪 些 组 和 源 是 感 兴趣 的 。 如 果 成 员 资格 变化 了 ， 主 
机 也 可 以 发 送 主动 提供 的 报告 
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在 图 9-6 中 ,我 们 可 以 看 到 IGMP (MLD) 查询 是 如 何 通过 组 播 路 由 器 发 送 的 。 这 些 被 
发 送 到 所 有 主机 组 播 地 址 224.0.0.1 (IGMP)， 或 所 有 节点 链 路 范围 组 播 地 址 ff02::1 (MLD), 
并 且 被 实现 全 组 播 的 每 台 主 机 处 理 (请 参见 9.4.2 节 中 的 特例 ,“ 特 殊 的 ”查询 )。 成 员 资 格 
报告 报 文 由 组 成 员 发 送 以 响应 查询 ， 但 是 也 可 能 从 一 些 主 机 以 一 种 主动 提供 的 方式 来 发 送 ， 
这 些 主 机 和 希望 通知 组 播 路 由 器 它们 的 组 成 员 资格 和 /或 对 特定 源 的 兴趣 已 经 改变 了 。IGMPv3 
报告 发 送 到 具有 IGMPv3 功能 的 组 播 路 由 器 地 址 224.0.0.22。MLDv2 报告 被 发 送 到 相应 的 
MLDv?2 侦 听 IPv6 组 播 地 址 ff02::16。 需 要 注意 的 是 ， 当 组 播 路 由 器 加 入 组 播 组 时 ， 组 播 路 
由 器 本 身 也 作为 成 员 。 


注意 在 IGMPv1 和 IGMPv2 中 ,主机 在 收 到 查询 后 不 立即 做 出 响应 ， 而 是 等 待 一 
个 小 的 随机 时 间 ， 以 查看 是 否 有 其 他 主机 响应 同一 组 。 如 果 有 ， 主 机 的 响应 被 抑制 
(不 发 送 )。 这 是 通过 在 问题 中 将 报告 发 送 到 组 组 播 地 址 来 完成 的 。[RFC3376] 的 附录 
A 说 明了 为 什么 该 操作 在 IGMPv3 中 删除 了 。 总 之 ， 组 播 路 由 器 可 能 希望 跟踪 记录 
单个 主机 的 订阅 ， 在 使 用 IGMP 探听 ( 见 9.4.7 节 ) 的 桥接 LAN 中 抑制 不 能 很 好 地 
工作 ， 处 理 抑 制 使 得 协议 实现 更 为 复杂 ， 并 且 IGMPv3 报告 包含 多 个 组 的 信息 ， 使 
抑制 成 功 的 可 能 性 更 小 。 注 意 IGMPv3 和 MLDv2 都 要 求 后 向 兼容 它们 的 早期 版 本 ， 
并 恢复 使 用 在 同一 子 网 中 检测 到 的 较 旧 的 主机 或 路 由 器 的 旧版 本 的 协议 报 文 。 


IGMP 和 MLD 的 封装 如 图 9-7 所 示 。 与 ICMP 类 似 ，IGMP 被 认为 是 IP 层 的 一 部 分 。 
还 和 ICMP 类 似 的 是 ，IGMP 报 文 也 在 IPv4 数据 报 中 传输 。 不 像 我 们 已 经 看 到 的 其 他 协议 ， 
IGMP 使 用 一 个 固定 的 为 1 的 TTL 值 ， 所 以 数据 分 组 仅 限 于 本 地 子 网 。IGMP 数据 分 组 也 使 
用 IPv4 路 由 器 警告 选项 ， 并 使 用 6 位 值 0x30 的 DS 字段 来 代表 网 间 控 制 (CS6， 参 见 第 5 
章 )。 在 IPv6 中 ，MLD 是 ICMPv6 的 一 部 分 , 但 MLD 的 功能 和 IGMP 的 几乎 是 相同 的 ， 所 
以 我 们 在 此 描述 它 (在 第 8 章 中 ， 当 描述 ICMPv6 时 ， 我们 简单 地 描述 了 它 的 报 文 格式 )。 它 
的 封装 使 用 了 IPv6 的 逐 跳 扩展 头 部 以 保持 路 由 器 警告 选项 。 在 许多 情况 下 ， 源 列表 是 空 的 。 


目的 地 址 ，224.0.0.1 (所 有 主机 一 一 一 般 查 询 ) ， 组 地 址 ( 特定 查询 /IGMPv2 ) , 
224.0.0.22 (所 有 IGMPvVv3 路 由 器 一 一 报告 ) 


类 型 : 查询 (17) ，v3 报告 (34 ) ，vl 报 告 ( 18 ) ，v2 报 告 (22 ) ，v2 离开 (23) 






















IPv4 头 部 
(TTL=1, HikX=2, 
DSField = 0x30 ) 


IGMP 数 据 (组 记录 或 源 列表 ) IGMP 





(24 字 节 ) (8 字 节 报告 ) 
(IPv4 路 由 器 警告 选项 ) (12 字 节 查 询 ) 








IPv4 数 据 报 





目的 地 址 : ff02::1 (所 有 主机 一 一 一 般 查 询 ) ， 组 地 址 ( 特定 查询 ) ， 或 ff02::16( 所 有 路 由 器 一 一 报告 ) 
路 由 器 警告 选项 ”类 型 查询 (130) ，v2 报 告 ( 143 ) 









MLD 数 据 


( 源 列表 ) MLD 








( 40 字 节 ) (6) (2)(4 字 节 ) (可 变 ) 
< IPv6 数据 报 


图 9-7 在 IPv4 中 ，IGMP 被 封装 为 一 个 单独 的 协议 。MLD 是 ICMPv6 报 文 的 一 种 类 型 
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IGMP 和 MLD 定义 了 两 组 协议 处 理 规则 : 由 组 成 员 的 主机 执行 的 和 由 组 播 路 由 器 执行 
的 。 一 般 来 说 ， 成 员 主 机 (我 们 将 其 称 为 “组 成 员 ”) 的 工作 是 自发 地 报告 对 组 播 组 和 源 的 
兴趣 改变 ， 以 及 响应 定期 的 查询 。 组 播 路 由 器 发 送 查 询 ， 以 确定 连接 链 路 上 的 对 于 任意 组 或 
是 特定 的 组 播 组 和 源 是 否 有 兴趣 。 路 由 器 也 与 广 域 组 播 协议 (如 PIM-SM 和 BIDIR-PIM) 交 
互 ， 将 所 需 的 流量 带 给 有 兴趣 的 主机 或 禁止 流量 流向 不 感 兴趣 的 主机 。 想 要 了 解 这 些 协议 的 
更 多 详细 信息 ， 请 参见 [RFC4601] 和 [RFC5015]。 
f 


9.4.1 组 成 员 的 IGMP 和 MLD 处 理 (“ 组 成 员 部 分 ”) 


IGMP 和 MLD 组 成 员 的 部 分 被 设计 为 允许 主机 指定 它们 对 什么 样 的 组 有 兴趣 ， 以 及 从 
特定 源 发 送 的 流量 是 否 应 该 接受 或 过 滤 掉 。 这 是 通过 向 一 个 或 多 个 连接 到 同一 子 网 的 组 播 
路 由 器 (和 参与 主机 ) 发 送 报告 完成 的 。 报 告 可 以 作为 接收 查询 的 结果 发 送 ， 或 是 因为 接收 
状态 〈 例 如 ， 一 个 应 用 程序 加 入 或 离开 某 个 组 ) 的 本 地 改变 而 自发 地 ( 即 主动 提供 ) 发 送 。 
IGMP 报告 采取 图 9-8 所 示 的 格式 。 
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类 型 ( 0x22 ) 保留 (0 ) s 
(8 位 ) (8 位 ) 校 验 和 (16 位) 








sy 组 记录 个 数 (N) 
保留 (16 位 ) i 


J 
1 
| 组 记录 [1] 
1 
| 


I 
1 
' 组 记录 [2] 
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组 记录 [N] 











图 9-8 IGMPv3 成 员 资 格 报告 包含 N 组 的 组 记录 。 每 个 组 记录 表明 一 个 组 播 地 址 和 可 选 源 列表 


报告 报 文 是 相当 简单 的 。 它 们 包含 一 个 组 记录 ( group record) 向 量 ， 其 中 的 每 一 个 提供 
了 有 关 特 定 组 播 组 的 信息 ， 包 括 主题 组 的 地 址 ， 以 及 用 于 建立 过 滤器 的 一 个 可 选 源 列表 ( 参 
见 图 9-9 )。 

每 个 组 记录 中 包含 一 个 类 型 、 主 题 组 的 地 址 ， 以 及 要 包含 或 是 排除 的 源 地 址 列表 。 此 
外 ， 还 支持 包括 辅助 数据 ， 但 此 功能 在 IGMPv3 中 没有 使 用 。 表 9-1 显示 使 用 IGMPv3 报告 
记录 类 型 可 以 获得 极 高 的 灵活 性 。MLD 使 用 相同 的 值 。 源 列表 涉及 了 包含 (include) 或 排除 
(exclude) 模式 。 在 包含 模式 中 ， 在 列表 中 的 源 是 流量 应 该 被 接收 的 唯一 的 源 。 在 排除 模式 
中 ， 在 列表 中 的 源 是 应 该 被 过 滤 掉 的 (所 有 其 他 的 是 允许 的 )。 离 开 一 个 组 可 以 表示 为 使 用 
没有 源 的 包含 模式 过 滤器 ， 一 个 组 的 简单 加 入 ( 即 对 所 有 源 ) 可 以 表示 为 使 用 没有 源 的 排除 
模式 滤波 器 。 注 意 ， 当 使 用 SSM 时 ， 类 型 0x02 和 0x04 不 能 使 用 ， 因 为 对 于 任意 组 ， 只 有 
一 个 单一 源 是 假定 的 。 
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0 15 16 31 


组 源 个 数 (N) 
(16 位 ) 











IPv4 组 播 (组 ) 地 址 (32 位) 





' 源 地 址 [1] 
| 源 地 址 [2] 


图 9-9 IGMPv3 的 组 记录 包括 一 个 组 播 地 址 (组 ) 和 一 个 可 选 的 源 列表 。 源 组 或 是 由 发 送 方 允许 ( 包 
含 模式 )， 或 是 过 滤 掉 (排除 模式 )。 以 前 版 本 的 IGMP 报告 不 包括 源 列表 


表 9-1 IGMP 和 MLD 源 列 表 的 类 型 值 指明 过 滤 模 式 ( 包含 或 排除 ) 以 及 源 列表 是 否 已 经 改变 













MODE_IS_INCLUDE (IS_IN) : 来 自任 意 相关 源 地 址 的 流量 不 
会 被 过 滤 
MODE IS_ EXCLUDE (IS_EX) : 来 自任 意 相 关 源 地 址 的 流量 会 
被 过 滤 
CHANGE TO_INCLUDE MODE (TO_IN) : 来 自 排除 模式 的 改 
变 ; 来 自任 意 相 关 源 地 址 的 流量 现在 不 应 该 被 过 滤 
CHANGE TO EXCLUDE MODE (TO EX): 来 自 包 含 模式 的 
改变 ; 来 自任 意 相关 源 地 址 的 流量 现在 应 该 被 过 滤 
ALLOW_NEW_SOURCES (ALLOW) : 源 列表 中 的 改变 ; 来 自 
任意 相关 源 地 址 的 流量 现在 不 应 该 被 过 滤 
BLOCK _ OLD_SOURCES (BLOCK): 源 列表 中 的 改变 ; 来 自任 
意 相关 源 地 址 的 流量 现在 应 该 被 过 滤 


0x01 响应 来 自 一 个 组 播 路 由 器 的 查询 









响应 来 自 一 个 组 播 路 由 器 的 查询 


响应 过 滤器 模式 从 排除 变 为 包含 
的 本 地 动作 
响应 过 滤器 模式 从 包含 变 为 排除 
的 本 地 动作 
响应 源 列 表 变 为 允许 新 源 的 本 地 
动作 
响应 源 列 表 变 为 禁止 先前 允许 的 
源 的 本 地 动作 


0x02 





















0x03 





0x04 







0x05 











0x06 


前 两 种 报 文 类 型 (0x01, 0x02) 被 称 为 当前 状态 记录 (current-state record), MH F 
应 查询 中 报告 当前 过 滤器 的 状态 。 接 下 来 的 两 个 (0x03 0x04) 被 称 为 过 滤器 模式 改变 记录 
(filter-mode-change record)， 这 表明 从 包含 模式 变 为 排除 模式 ,或 相反 。 最 后 的 两 个 (0x05, 
0x06 ) 被 称 为 源 列表 变更 记录 (source-list-change record)， 指 明 在 排除 或 包含 模式 中 正在 处 
理 的 源 的 变化 。 最 后 四 种 类 型 也 被 更 一 般 地 描述 为 状态 变化 记录 ( state-change record) 或 状 
态 变化 报告 ( state-change report)。 这 些 作为 一 些 本 地 状态 改变 的 结果 来 发 送 ， 如 一 个 新 的 应 
用 程序 正在 启动 或 停止 ， 或 是 一 个 正和 运行 的 应 用 程序 改变 了 它 的 组 / 源 兴趣 。 需 要 注意 的 是 ， 
IGMP 和 MLD 查询 / 报告 本 身 从 不 过 滤 。MLD 报告 使 用 类 似 于 IGMP 报告 的 结构 ， 但 是 可 
以 容纳 更 大 的 地 址 范围 ， 并 使 用 一 个 ICMPv6 类 型 代码 143 ( 见 第 8 章 )。 

当 接 收 到 一 个 查询 时 ， 组 成 员 没 有 立即 回应 。 相 反 ， 它 们 设置 一 个 随机 的 《有 界限 的 ) 
计时 器 来 决定 何 时 响应 。 在 此 期 间 ， 进 程 可 能 会 改变 它们 的 组 / 源 兴趣 。 任 何 这 样 的 变化 可 


J 4640 K 4148 (IGMP #2 MLD) 323 


以 在 计时 器 到 期 前 一 起 处 理 来 触发 报告 。 这 样 一 来 ,一旦 计时 器 到 期 ， 多 个 组 的 状态 可 以 更 
容易 地 被 合并 成 一 个 单一 的 报告 ， 节 省 了 开销 。 

HF IGMP 的 源 地 址 是 发 送 接口 的 主要 或 首选 的 IPv4 地 址 。 对 于 MLD， 源 地 址 是 本 地 
链 路 IPv6 地 址 。 当 主机 在 启动 并 尝试 确定 它 自己 的 IPv6 地 址 时 ， 会 同时 出 现 一 个 问题 。 在 
此 期 间 ， 它 选择 一 个 潜在 的 IPv6 地 址 来 使 用 并 执行 重复 地 址 检测 (DAD) 过 程 ( 见 第 6 章 )， 
以 确定 是 否 有 任何 其 他 的 系统 已 经 使 用 这 个 地 址 。 因 为 DAD 涉及 组 播 ， 一 些 源 地 址 必须 被 
分 饮 为 传 出 MLD 报 文 。[RFC3590] 解决 了 这 个 问题 ， 它 允许 未 指定 的 地 址 (::) 在 配置 过 程 
中 被 用 来 作为 MLD 流量 的 源 IPv6 地 址 。 


9.4.2 组 播 路 由 器 的 IGMP 和 MLD 处 理 (“组 播 路 由 器 部 分 ”) 

在 IGMP 和 MLD 中 ,组 播 路 由 器 的 工作 是 为 每 个 组 播 组 、 接 口 和 源 列 表 确 定 是 否 至 少 
有 一 个 组 成 员 目 前 在 接收 相应 的 流量 。 这 是 通过 发 送 查 询 ， 以 及 基于 成 员 发 送 的 报告 ， 建 立 
描述 成 员 存 在 性 的 状态 来 完成 的 。 此 状态 是 软 状态 ， 这 意味 着 ， 如 果 没 有 被 刷新 ， 在 经 过 一 
个 确定 的 时 间 后 ， 它 会 被 清除 。 为 了 建立 这 种 状态 ， 组 播 路 由 器 发 送 IGMPv3 查询 ， 其 形式 
如 图 9-10 所 示 。 
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IPv4 组 播 (组 ) 地 址 (32 位 ) 查询 
: 头 部 
保留 |] ORV z BME (N) 
ae aby (16 位 ) eee. 
| 源 地 址 [1] 1 
mias one 
i 源 地 址 [2] i 
se ---| 
| 源 地 址 [1] | 
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图 9-10 IGMPv3 查询 包含 组 播 组 地 址 和 可 选 源 列表 。 一 般 查 询 使 用 为 0 的 组 地 址 ， 并 被 发 送 到 所 有 
主机 组 播 地 址 224.0.0.1。QRYV 值 编码 发 送 方 将 使 用 的 最 大 重 传 次 数 ，QQIC 字段 编码 定期 查 
询 间隔 。 在 结束 流量 流动 之 前 ， 特 定 的 查询 用 于 组 或 是 源 / 组 的 组 合 。 在 这 种 情况 下 (和 使 用 
IGMPv2 或 IGMPv1 的 所 有 情况 下 )， 该 查询 被 发 送 到 的 主题 组 的 地 址 


IGMP 查询 报 文 与 我 们 在 第 8 章 中 讨论 的 ICMPv6 MLD 查询 很 相似 。 在 这 种 情况 下 ， 组 
(组 播 ) 地 址 长 度 是 32 位 ， 最 大 响应 代码 (Max Resp Code) 字段 是 8 位 而 非 16 位 。 最 大 响 
应 代码 字段 编码 查询 的 接收 方 在 发 送 报告 之 前 应 该 延迟 的 最 大 时 间 量 ， 对 于 128 以 下 的 值 以 
100ms 为 单位 编码 。 对 于 127 以 上 的 值 ， 该 字段 编码 如 图 9-11 所 示 。 

此 编码 提供 了 一 个 可 能 的 范围 (16)(8)=128 到 (31)(1024) =31 744 ( 即 约 13 秒 到 
53 分 钟 )。 使 用 较 小 最 大 响应 代码 字段 的 值 允许 调节 离开 延迟 (从 最 后 一 个 组 成 员 离开 的 时 
间 到 相应 的 流量 不 再 被 转发 所 经 过 的 时 间 )。 增 加 该 字段 的 值 (通过 提高 更 长 报告 周期 的 可 
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能 性 )， 会 减少 由 成 员 生成 的 IGMP 报 文 流 量 负载 。 

查询 中 的 其 余 字 段 包括 跨越 整个 报 文 的 互联 网 式 的 校 验 和 、 主 题 组 的 地 址 、 源 列表 ， 以 
及 我 们 在 第 8 章 中 讨论 MLD 时 定义 的 S、QRV 和 QQIC 字段 。 当 组 播 路 由 器 希望 了 解 所 有 
组 播 组 的 兴趣 时 ， 组 地 址 ( Group Address) 字段 被 


设置 为 0 (这 样 的 查询 被 称 为 “一 般 查询 ")。S 和 一 
ET mel 1 
论 。QQIC 字 段 Querier’s Query Interval Code 的 最 大 响应 时 间 = ( 尾数 +16 ) *2 Oe 


缩写 。 这 个 值 是 以 秒 为 单位 查询 发 送 周期 ， 并 使 用 
和 最 大 响应 代码 字段 相同 的 方法 进行 编码 ( 即 从 0 为 单位 的 最 大 延迟 响应 时 间 。 对 
到 31 744 的 范围 )。 于 127 以 上 的 值 ， 一 种 指数 值 可 
有 三 种 查询 报 文 的 变 体 可 以 由 组 播 路 由 器 发 用 于 容纳 较 大 的 值 
送 : 一 般 查 询 ( general query), 44228474 ( group- 
specific query)， 特 定 组 和 源 查询 ( group-and-source-specific query)。 第 一 种 形式 被 组 播 路 由 
器 用 于 更 新 任意 组 播 组 的 信息 ， 对 于 这 样 的 查询 ， 组 列表 是 空 的 。 特 定 组 查询 与 一 般 查询 类 
似 ， 但 对 于 识别 的 组 是 特定 的 。 最 后 一 类 本 质 上 是 一 个 包含 一 组 源 的 特定 组 查询 。 特 定 的 查 
询 被 发 送 到 主题 组 的 目的 IP 地址 ,与 之 形成 对 照 ， 一 般 查 询 被 发 送 到 所 有 系统 的 组 播 地 址 
(对 于 IPv4 ) 或 IPv6 中 的 链 路 范围 内 的 所 有 节点 组 播 地 址 (ff02::1 )。 
发 送 特 定 查 询 响应 状态 变化 报告 ， 以 证 明 它 适用 于 路 由 器 采取 一 些 措施 (例如 ， 在 构造 
一 个 过 滤器 之 前 ， 确 保 没 有 兴趣 仍然 在 特定 的 组 中 )。 当 接收 过 滤器 模式 改变 记录 或 源 列表 
改变 记录 时 ， 组 播 路 由 器 安排 增加 新 的 流量 源 ， 并 且 能 够 过 滤 掉 来 自 特 定 源 的 流量 。 在 组 播 
路 由 器 准备 开始 过 滤 前 面 正 流动 的 流量 时 ， 它 首先 使 用 特定 组 查询 以 及 特定 组 和 源 查询 。 如 
果 这 些 查询 没有 引起 任何 报告 ， 路 由 器 开始 过 滤 相 应 的 流量 。 因 为 这 种 变化 可 以 显著 地 影响 
组 播 流 量 的 流动 ， 状 态 变 化 报告 和 特定 查询 被 重 传 (参见 9.4.5 节 )。 


9.4.3 ”例子 


9-12 显示 了 一 个 数据 分 组 跟踪 记录 ， 它 包含 IGMPv2, IGMPv3, MLDv1 和 MLDv2 协 
议 的 组 合 ， 它 们 都 在 同一 个 子 网 工作 。 跟 踪 记录 的 长 度 为 16 个 分 组 (在 图 9-12 中 显示 了 前 10 
个 )， 它 以 一 个 MLD 查询 开始 ， 该 查询 来 自 于 本 地 链 路 IPv6 地 址 为 fe80::204:5aff:fe9f:9e80 的 
查询 方 。 回 想 一 下 ，MLD 和 MLDv2 使 用 相同 的 查询 格式 。 与 之 相同 的 系统 还 使 用 IPv4 源 地 
址 10.0.0.1 作为 IGMP 查询 方 。 

Æ Bl 9-12 F, MLD 查询 (分 组 1) 由 查询 方 发 送 ， 使 用 它 的 本 地 链 路 IPv6 地 址 
fe80::204:5aff:fe9f:9e80 到 组 播 地 址 ff02::1 (所 有 节点 )。MAC 层 地 址 分 别 为 00:04:5a:9f:9e:80 
和 33:33:00:00:00:01。 这 里 ， 我 们 可 以 看 到 IPv6 本 地 链 路 单 播 地 址 如 何 与 对 应 的 MAC 地 址 
相关 联 ， 以 及 所 有 节点 地 址 如 何 映射 到 使 用 前 级 33:33 的 MAC 地址， 如 我 们 前 面 讨 论 的 。 
IPv6 的 跳 数 限制 ( Hop Limit) 字段 被 设置 为 1， 因 为 MLD 报 文 只 适用 于 本 地 链 路 。IPv6 负 
载 长 度 (Payload Length) 字段 表示 为 36 个 字 节 ， 其 中 包括 保持 MLD 形式 的 路 由 器 警报 GB 
跳 选 项 ) 的 8 个 字 节 、ICMPv6 头 部 信息 的 4 个 字 节 ， 以 及 保持 MLD 数据 本 身 的 24 个 字 节 。 
MLD 报 文 的 类 型 (Type)、 代 码 (Code)、 校 验 和 (Checksum) 和 最 大 响应 ( MaxResponse ) 
字段 需要 24 个 字 节 中 的 8 个 ; 另外 16 个 用 来 存放 组 播 地 址 字段 (设置 为 0/ 未知 或 者 未 指定 
的 地 址 来 包含 所 有 组 )。S 位 字段 、QRV 和 QQC 字段 一 起 使 用 2 个 字 节 ， 最 后 2 个 保持 识 


图 9-11 最 大 响应 代码 字段 编码 以 100ms 


_ Sirkit (IGMPAMID O YO 


别 源 的 号 码 ， 在 这 种 情况 下 为 0。 在 这 个 例子 中 ， 我 们 看 到 所 有 MLD 信息 的 默认 值 : 最 大 
响应 延迟 为 10 秒 ，QRV = 2， 以 及 125s 的 查询 时 间 间 隔 。 下 一 个 报 文 (分 组 2， 图 9-13 ) 是 
对 查询 的 响应 。 


igmp-mid.td - Wireshark 


fle Ek yew Go Capture Analyze _ Statistics Telephony Tools tiep - — 
EITTIE ESETE 





. O000 GOOD siss sawi vasa seda wy ws = Traffic class: 0x00000000 
0000 0000 0000 0000 0000 = Flowlabel: 0x00000000 
payload length: 36 
Next header: IPV6 hop-by-hop option (0x00) 
Hop limit: 1 
Source: fe80::204:S5aff:fe9f:9e80 (fe80: 2204: Saff:fesf:9e80) 
[Source SA MAC: 00:04:5a:9f:92:80 (00:04:5a:9f:9e:80)] 
Destination: ff02::1 (ff02::1) 
@ Hop-by-Hep option 

Next header: ICMPv5 (Ox3a) 

Length: 0 (8 bytes) 

Router alert: MLD (4 bytes) 

PadN: 2 bytes 

ig Internet Control] Message Protocol) v6 

Type: 130 (Multicast listener query) 
Code: 0 (unknown) 
Checksum: Ox5c73 [correct] 
Maximum response delay[ms]: 10000 
Multicast Address; :: 
S Flag: OFF 
Robustness: 2 
QQr: 125 





图 9-12 IGMPv2, IGMPv3, MLDv1 和 MLDv2， 全 部 在 同一 个 子 网 。 
高 亮 的 数据 分 组 是 一 个 MLD 查询 


jemp-mid.td - Wireshark 


| 








Type: 143 (multicast Listener Report Message v2) 
Code: 0 (should always be zero) 
Checksum: Oxfb32 [correct] 
Reserved: 0 (Should always be zero) 
Number of records: 1 
S Exclude: ffo2::c CFFO2s:¢) 
Mode: Exclude (2) 
Aux data len: 0 
Number of Sources: 0 
Multicast Address: ff02:: 


<i ll A ai 


图 9-13 通过 使 用 没有 源 的 排除 类 型 的 报 广 ， MLDv2 侦 听 报告 报 文 表示 了 
对 组 ff02::c 的 兴趣 (SSDP 本 地 链 路 范围 组 播 地 址 ) 





图 9-13 是 一 个 MLDv2 报告 ， 表 示 对 组 播 地 址 ff02::c 的 兴趣 ( SSDP 的 本 地 链 路 组 播 地 
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址 )。 使 用 包含 空 源 列表 的 排除 模式 报告 ， 在 这 样 的 报告 中 指明 了 兴趣 。 跟 踪 记 录 中 的 随后 
460] ” 几 个 数据 分 组 显示 了 MLDv1 的 使 用 ( 仍 在 一 些 系统 中 使 用 )。 
图 9-14 中 的 分 组 3 到 分 组 5 都 是 MLDv1 报告 。 只 有 分 组 3 在 这 里 显示 ， 因 为 其 他 的 
分 组 是 相似 的 (它们 之 间 的 区 别 仅 在 于 各 自 的 目的 地 IPv6 地 址 不 同 )。 与 MLDv2 基本 相同 ， 
每 个 报告 都 使 用 相同 的 结构 ，IPv6 基 和 扩展 头 部 ， 但 报告 的 目的 地 址 是 感 兴趣 的 组 播 地 址 
ff02::2:7408:ff56。 请 注意 ， 在 MAC 层 ， 此 目的 地 址 映射 到 33:33:74:08:ff:56。 跟 踪 记 录 的 
随后 部 分 ， 从 图 9-15 中 的 分 组 6 开始， 显示 了 MLDv2 如 何 报告 多 个 兴趣 。 


igmp-mld.td - Wireshark 








er | ge 
Type: 131 (multicast listener report) 
code; 0 (should always be zero) 
Checksum: 0x37d3 [correct] 
Maximum response delay: 0 
Multicast Address: ffo. 7408 :FF56 





[461] 9-14 MLDv1 报告 报 文 表示 了 对 组 播 地 址 ff02::2:7408:ff56 的 兴趣 ， 该 地 址 也 是 目的 地 IP v6 地 址 
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Type: 143 (multicast ‘Listener Report Per YZY 
code: 0 (should always be zero) 
Checksum: Oxd449 [correct] 
Reserved: © (Should always be zero) 
Number of records: 5 
a Exclude; ff02::16 (ff02::16) 
Mode: Exclude (2) 
Aux data Ten: 0 
Number of Sources: 0 
Multicast Address: ff02::16 
@ Exclude: ff02::1:ff00:0 (FFO2::1:FfF00:0) 
Mode: Exclude (2) 
Aux data len: 0 
Number of Sources: 0 
Multicast Address: ff02::1:ff00:0 
Exclude: ff02;:2 (ff02::2) 
Mode: Exclude (2) 
Aux data len: 0 
Number of Sources: 0 
Multicast Address: ff02:;2 
i Exclude: ff02::202 CfF02::202) 
Mode: Exclude (2) 
Aux data Jen: 0 
Number of Sources: 0 
Multicast Address: ff02::202 
fa Exclude: FFO2::1:fF9F:9e80 CFFO2::1:ffF9F:9e80) 
Mode: Exclude (2) 
Aux data Jen: 0 
Number of Sources: 0 
Multic : 


m za — N m 


图 9-15 MLDv2 报告 表达 了 对 5 个 组 播 组 的 兴趣 。 每 个 组 播 地 址 记录 通过 指明 没有 源 被 排除 ， 报 告 了 
对 一 个 单一 组 的 兴趣 ( 即 ， 模 式 为 没有 相关 源 的 排除 模式 ) 
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图 9-15 中 的 分 组 6 是 第 一 个 MLDv2 报告 ， 指 明了 对 多 个 组 播 地 址 的 兴趣 。 在 这 种 情 
BLP, Ee A fe80::204:Saff:fe9f:9e80 (MLD 查询 方 )， 并 包含 5 个 组 的 信息 : ff02::16 (所 
有 具有 MLDv2 功能 的 路 由 器 )，ff02::1:ff00:0 (第 一 个 请 求 节点 地 址 )，ff02::2 (所 有 路 由 
28), ff02::202 (ONC RPC， 一 种 远程 过 程 调用 )， 以 及 ff02::1:ff9f:9e80 (其 自身 的 请 求 节点 
组 )。 分 组 7 (不 详细 ) 是 一 个 MLDv2 报告 ， 指 明 主机 fe80::fd26:de93:5ab7:405a 对 于 它 的 请 
求 节点 地 址 ff02::1:ffb7:405a 感 兴 趣 。 我 们 现在 转移 到 图 9-16 中 显示 的 跟踪 记录 中 的 非 IPv6 
流量 。 

图 9-16 中 的 分 组 8 是 记录 的 第 一 个 IPv4 分 组 ， 并 且 它 是 来 自 查询 方 10.0.0.1 的 一 个 
IGMPv3 的 一 般 查询 。 该 分 组 被 发 送 到 所 有 节点 地 址 224.0.0.1， 该 组 播 地 址 映射 到 链 路 层 地 
tit 01:00:5e:00:00:01。TTL 设置 为 1， 因为 IGMP 报 文 不 会 通过 路 由 器 转发 。IPv4 头 部 是 24 
个 字 节 ， 比 基本 Pv 头 部 多 4 个 字 节 ， 这 是 为 了 保持 4 个 字 节 的 路 由 器 警告 选项 。 这 个 特 
定 的 数据 分 组 是 一 个 IGMPv3 成 员 查询 ， 使 用 默认 的 最 大 响应 时 间 10s、 查 询 间 隔 125s。 被 
识别 的 组 播 地 址 (组 ) 为 0.0.0.0， 所 以 这 是 请 求 了 解 所 有 使 用 中 的 组 播 组 的 一 个 一 般 查询 。 
分 组 9 (未 详细 说 明 ， 但 和 分 组 7 和 2 相似 ) 是 一 个 散布 的 MLDv2 响应 ， 指 明 对 组 播 地 址 
ff02::1:3 (LLMNR) 的 兴趣 。 最 后 7 个 分 组 如 图 9-17 所 示 。 
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SeAee SAxe2a reese 





version: 4 
Header length: 24 bytes 
@ Differentiated services Field: OxcO (DSCP 0x30: Class selector 6; 
Total Length: 36 
Identification: Ox3d65 (15717) 
@ Flags: 0x00 
Fragment offset: 0 
Time to live: 1 
Protocol: IGMP (2) 
@ Header checksum: Oxfcac [correct] 
Source: 10.0.0.1 (10.0.0.1) 
Destination: 224.0.0.1 (224.0.0.1) 
@ Options: (4 bytes) 
Router Alert: Every router examines packet 
GB Internet Group Management Protocol 
[IGMP version: 3] 
Type: Membership Query (0x11) 
Max Response Time: 10.0 sec (0x64) 
Header checksum: QOxecle [correct] 
Multicast Address: 0.0.0.0 (0.0.0.0) 
局 QRV=2 S=DO not suppress router side processing 
s... 0.. = S: DO not suppress router side processing 





ml 
它 的 IPv4 头 部 包 





图 9-16 一 个 IGMPv3 一 般 成 员 资格 查询 ， 它 被 发 送 到 所 有 节点 组 播 地 址 224.0.0.1。 
含 一 个 值 为 0x30 (类 选择 器 6 ) 的 DSCP 和 IPv4 路 由 器 警告 选项 





在 图 9-17 中 的 分 组 10 是 一 个 由 10.0.0.14 (连接 到 网 络 的 打印 机 ) 发 送 到 224.0.1.60 
的 IGMPv2 成 员 资格 报告 ， 它 是 一 种 发 现 服务 ， 适 用 于 惠普 生产 的 设备 。 与 MLDv1 一 样 ， 
IGMPv2 报 文 被 发 送 到 正在 被 引用 的 组 的 IP 地 址 。 这 样 的 报 文 TTL = 1， 包 括 路 由 器 警告 选 
项 ， 长 度 为 32 个 字 节 (24 字 节 的 IPv4 头 部 加 上 8 字 节 的 IGMP 报告 信息 )。 
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GMS Sete dn Zane, Se. 
TOTEE 


224.0.0.22 IGMP V3 Membership Report / Join group 239.255.255.250 for any sources ga 
224.0.0.22 . IGMP V3 membership Report / Jóin group 224,0.0.252 for any sources 
224.0.0.22 IGMP V3 Membership Report / Join group 224,0,0,251 for any sources 

0. IGMP v2 Membership Report / Join group 224,0.0,251 





TOLi3e COLO0r5e:00;01; 30)", 
net! yi ? TT M 5 
version: 4 
Header length: 24 bytes 
@ Differentiated Services Field: 0x00 (DSCP 0x00: Default; ECN: 0x00) 
Total Length: 32 
Identification: Oxcb7f (52095) 
& Flags: 0x00 
Fragment offset: 0 
Time to live: 1 
Protocol: IGMP (2) 
@ Header checksum: Ox6eQe [correct] 
Source: 10.0.0.14 (10.0.0.14) 
Destination: 224.0.1.60 (224.0.1.60) 
& Options: (4 bytes) 
Router Alert: Every router examines packet 
a Internet Group Management Protocol 
[IGMP version: 2] 
Type: Membership Report (0x16) 
Max Response Time: 0.0 sec (0x00) 
Header checksum: Ox08c3 [correct] 
Multicast Address: 224.0.1.60 (224.0.1.60) 





图 9-17 分 组 10 和 最 后 7 个 分 组 的 详细 情况 ， 它 们 是 IGMPv2 和 IGMPv3 成 员 资 格 报告 的 混合 (除了 
分 组 12 )。IGMPv2 的 报告 中 不 包含 特定 源 的 信息 


余下 的 数据 分 组 没有 详细 列 出 ， 因 为 它们 和 我 们 已 经 详细 看 到 的 其 他 分 组 类 似 。 分 组 
11 报告 ， 同 一 个 系统 10.0.0.14 希望 加 和 组 239.255.255.250 (UPnP 的 一 部 分 )。 分 组 12 是 
一 个 MLDv2 报告 ， 说 明 主 机 fe80::208:74ff:fe93:c83c 对 组 播 地 址 ff02::202(ONC RPC) 和 
ff02::1:ff93:f83c( 它 的 请 求 节点 地 址 ) 感 兴趣 。 分 组 13 和 分 组 14 是 IGMPv3 报告 ， 表 明 
IPv4 地 址 为 10.0.0.57 的 主机 分 别 对 组 239.255.255.250 和 224.0.0.252 (LLMNR) 感 兴 趣 。 最 
后 两 个 分 组 指明 主机 10.0.0.13 和 10.0.0.14 希望 加 入 组 224.0.0.251 (mDNS， 见 第 11 Æ), 
它们 分 别 是 IGMPv3 和 IGMPv2 报告 


9.4.4 422% |IGMPv3 和 MLDv2 


正如 我 们 已 经 看 到 的 那样 ， 主 机 维护 对 它们 的 应 用 和 系统 软件 感 兴趣 的 组 播 组 的 过 滤器 
状态 。 对 于 IGMPv3 或 MLDv2， 它们 也 维护 被 排除 或 包含 的 源 列表 。 为 了 了 解 什么 流量 需 
要 被 转发 到 链 路 上 以 便 有 兴趣 的 主机 收 到 ， 组 播 路 由 器 维护 类 似 的 状态 。 反 过 来 也 是 如 此 : 

一 个 组 播 路 由 器 可 以 停止 转发 在 每 个 接收 方 的 排除 列表 中 的 主机 发 送 的 组 播 流量 。 实 践 经 验 
证 明 ， 应 用 程序 很 少 需要 屏蔽 特定 源 ， 并 且 支 持 此 功能 也 比较 复杂 。 然 而 ， 主 机 往往 希望 
包含 一 个 与 一 个 组 相关 联 的 特定 源 ， 尤其 是 当 SSM 在 使 用 时 。 因 此 ， 简 化 版 的 IGMPv3 和 
MLDy2 已 在 [RFC5790] 中 定义 ， 分 别称 为 轻 量 级 IGMPv3 (LW-IGMPv3 ) 和 轻 量 级 MLDv2 
(LW-MLDv?2 ). 

LW-IGMPv3 和 LW-MLDv2 是 其 正本 的 子 集 。 它 们 支持 ASM 和 SSM， 并 使 用 与 
IGMPv3 和 MLDv2 兼容 的 报 文 格式 ,但 它们 缺少 特定 阻塞 源 的 功能 。 相 反 ， 唯 一 支持 的 排 
除 模 式 是 没有 列 出 源 的 情况 ， 它 对 应 于 所 有 版 本 的 IGMP 或 MLD 中 的 传统 的 组 加 入 (例如 ， 
与 图 9-13 中 一 样 )。 对 于 组 播 路 由 器 ， 这 意味 着 唯一 需要 的 状态 是 记录 哪些 组 感 兴趣 ， 以 及 
哪些 源 感 兴趣 。 它 不 需要 记录 任何 不 期 望 的 单个 源 。 
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# 9-2 显示 了 IGMPv3 Fil MLDv2 的 轻 量 级 变 体 中 使 用 的 报 文 类 型 的 修改 。 在 此 表 中 ， 
空 集 符号 〈 {} ) 表示 一 个 空 的 源 地 址 列表 。 例 如 ，TO_EX ( {}) 表示 一 个 0x04 类 型 的 报 文 ， 
说 明 它 改变 为 没有 相关 源 的 EXCLUDE 模式 。 符 号 (*，G) 表示 与 任何 源 相 关联 的 组 G， 符 
5 (S, G) 表示 与 特定 源 S 相关 联 的 组 Go 


表 9-2 IGMPv3 和 MLDv2 的 完整 版 本 与 它们 的 “ 轻 量 级 ”版 本 LW-IGMPv3 和 LW-MLDv2 的 对 比 


完整 版 轻 量 级 何 时 发 送 
IS_EX({}) 对 于 (*，G) 加 入 的 查询 响应 
IS_EX(S) 对 于 EXCLUDE (S，G) 加 入 的 查询 响应 
IS_IN(S) Xt F INCLUDE (S, G) 加 入 的 查询 响应 
ALLOW(S) INCLUDE (S, G) 加 入 
BLOCK(S) INCLUDE (S, G) 离开 
TO_IN(S) 改变 为 INCLUDE (S, G) 加 入 
TONG) (*, G) 离开 
TO_EX(S) 改变 为 EXCLUDE (S，G) 加 入 
TO_EX({}) C, G) 离开 


比较 表 9-2 与 表 9-1 中 的 值 。 显 而 易 见 ， 没 有 使 用 非 空 排除 模式 ， 状 态 指示 符 类 型 已 被 
删除 。 此 外 ， 当 前 状态 记录 (IS_EX 和 IS_EN) 已 对 兼容 的 主机 删除 。 轻 量 级 组 播 路 由 器 仍 
然 应 该 能 够 接收 这 样 的 报 文 ， 但 对 待 它 们 就 好 像 它 们 总 是 包含 一 个 空 源 列表 。 


9.4.5 IGMP 和 MLD 健壮 性 


对 于 IGMP 和 MLD 协议 的 健壮 性 和 可 靠 性 有 两 个 主要 的 问题 。IGMP 或 MLD 的 失效 ， 
或 更 一 般 的 组 播 ， 可 以 导致 不 需要 的 组 播 流 量 的 分 配 ， 或 没有 能 力 交 付 期 望 的 组 播 流 量 。 由 
IGMP 和 MLD 处 理 的 失败 类 型 包含 组 播 路 由 器 的 失效 和 协议 报 文 的 丢失 。 

通过 允许 多 个 组 播 路 由 器 在 同一 链 路 上 运行 ， 可 以 处 理 组 播 路 由 器 潜在 的 失效 故障 。 正 
如 前 面 提 到 的 ， 在 这 样 的 配置 中 ， 具 有 最 小 P 地 址 的 路 由 器 被 选 为 “查询 器 ” 。 查 询 器 负责 
发 送 一 般 和 特定 查询 来 确定 该 子 网 中 主机 的 当前 状态 。 其 他 ( 非 查询 器 ) 路 由 器 监控 协议 报 
文 ， 因 为 它们 也 是 组 成 员 或 组 播 混杂 侦 听 器 ， 并 且 假 如 当前 查询 器 失效 了 ， 不 同 的 路 由 器 能 
够 作为 查询 器 介入 。 为 了 使 其 正常 工作 ， 所 有 连接 到 相同 链 路 的 组 播 路 由 器 需要 协调 它们 的 
查询 、 响 应 和 它们 的 一 些 配 置信 息 (主要 是 计时 器 )。 

多 个 组 播 路 由 器 实现 的 第 一 种 类 型 的 协调 是 查询 器 选举 (querier election) 。 每 个 组 播 路 
由 器 可 以 侦 听 其 他 的 查询 。 当 一 个 组 播 路 由 器 启动 时 ， 它 认为 自己 是 查询 器 ， 并 发 送 一 般 查 
询 以 确定 在 子 网 中 哪些 组 是 活路 的。 当 一 个 路 由 器 收 到 另 一 个 路 由 器 的 组 播 查询 时 ， 它 比较 
源 IP 地 址 和 它 自 己 的 。 如 果 在 所 接收 的 查询 中 的 源 地 址 小 于 它 自己 的 ， 接 收 路 由 器 进入 
备用 模式 。 因 此 ， 具 有 最 小 IP 地 址 的 路 由 器 被 认为 是 获胜 者 ， 并 成 为 单一 的 查询 器 ,负责 
向 它 连 接 的 子 网 中 发 送 查 询 。 备 用 的 路 由 器 设置 计时 器 ， 如 果 它 们 在 一 个 指定 的 时 间 ( 称 为 
其 他 查询 器 出 现 (other-querier-present) 计时 器 ) 内 没有 看 到 更 多 的 查询 ， 它 们 再 次 成 为 查 
HAE o 

查询 组 播 路 由 器 定期 发 送 一 般 查 询 ， 以 确定 哪些 组 和 主机 是 同一 个 子 网 的 主机 感 兴趣 
的 。 这 些 查 询 被 发 送 的 频率 由 查询 器 的 查询 间隔 、 可 配置 计时 器 参数 决定 。 当 多 个 组 播 路 由 
融 在 同一 子 网 中 运行 时 ， 当 前 查询 器 的 时 间 间 隐 被 所 有 其 他 路 由 器 接受 。 在 这 种 方式 中 ， 如 
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果 当 前 查询 器 失效 ， 到 替代 组 播 路 由 器 的 切换 不 会 干扰 定期 查询 速率 。 

有 理由 相信 ， 一 个 组 (或 源 ) 不 再 感 兴趣 的 组 播 路 由 器 发 送 一 个 特定 的 优先 查询 以 停止 
相应 组 播 流 量 的 转发 〈 或 通知 组 播 路 由 协议 )。 这 些 查询 以 不 同 于 一 般 查 询 的 时 间 间 隅 〈 称 为 
最 后 成 员 查 询 时 间 (Last Member Query Time, LMQT) 发 送 。LMQT 通常 比 查 询 间隔 要 小 
( 短 )， 并 管理 离开 延迟 。 当 多 个 组 播 路 由 器 在 同一 个 子 网 运行 时 ， 可 能 同时 出 现 一 个 问题 ， 
主机 希望 离开 组 (或 丢弃 源 )， 并 且 协 议 信息 会 丢失 。 

为 了 帮助 防止 丢失 协议 报 文 ,有些 报 文 被 重 传 多 次 (由 QRV 查询 器 鲁 棒 性 变量 决定 )。 
QRV 值 在 包含 于 查询 中 的 QRV 字段 中 编码 ， 非 查询 路 由 器 采用 查询 器 的 QRV 作为 自己 的 。 
如 果 查 询 器 发 生 改 变 ， 这 再 次 帮助 保持 了 稳定 性 。 重 传 中 保护 的 报 文 类 型 包括 状态 改变 报告 
和 特定 查询 。 其 他 报 文 (当前 状态 报告 ) 通常 不 会 导致 转发 状态 的 变化 ， 而 是 只 涉及 通过 调 
整 计 时 器 刷新 软 状态 ， 所 以 使 用 重 传 无 法 保护 它们 。 当 重 传 发 生 时 ， 报 告 的 重 传 间隔 在 0 和 
一 个 称 为 主动 报告 间隔 (Unsolicited Report Interval) 的 可 配置 参数 之 间 随 机 选择 ， 查 询 的 重 
传 间隔 是 周期 性 的 〈 基 于 LMQT 的 间隔 )。 预 计 更 容易 出 现 丢 失 的 链 路 (如 无 线 链 路 )， 可 能 
需要 以 生成 额外 的 流量 为 代价 ， 增 加 鲁 棱 性 变量 以 增强 分 组 丢失 的 健壮 性 。 

当 处 理 特 定 查询 时 ， 为 了 帮助 组 播 路 由 器 保持 同步 ， 查 询 报 文中 S 位 字段 表明 路 由 器 
端 (计时 器 ) 处 理应 被 抑制 。 当 一 个 特定 的 查询 由 查询 器 发 送 时 ， 应 该 安排 一 个 重 传 次 数 
( QRV)。 在 发 送 的 第 一 个 查询 中 ，S 位 字段 被 清除 。 基 于 重 传 或 这 种 查询 的 接收 ， 组 播 路 由 
器 会 为 随后 的 重 传 降 低 它 的 计时 器 到 LMQT。 此 时 ， 为 感 兴趣 的 主机 提供 一 个 报告 ， 指 出 它 
对 一 个 组 或 源 的 持续 的 兴趣 ， 这 是 可 能 的 。 如 果 没 有 报 文 丢失 ， 该 报告 使 每 个 组 播 路 由 器 重 
置 它 的 计时 器 为 普通 值 ， 并 保持 不 变 。 然 而 ， 预 定 的 重 传 不 会 被 放弃 。 相 反 ， 特 定 查询 的 重 
传 被 发 送 时 ，S 位 字段 被 设置 ， 这 将 导致 接收 路 由 器 不 会 降低 它们 的 计时 器 到 LMQT. 

在 收 到 表示 有 兴趣 的 报告 之 后 ， 仍 保持 查询 重 传 的 原因 ， 是 为 了 使 跨越 所 有 组 播 路 由 器 
的 组 的 超时 时 间 是 一 致 的 。 然 后 ，S 位 字段 的 目的 是 为 了 让 特定 的 查询 被 (重新 ) BK, th 
为 了 避免 降低 计时 器 到 LMQT， 因 为 一 个 表示 兴趣 的 合法 的 报告 可 能 已 经 被 接受 了 ， 即 使 它 
或 初始 查询 被 非 查询 器 路 由 器 丢失 了 。 没 有 这 种 能 力 ， 重 传 的 特定 查询 会 导致 非 查询 器 路 由 
器 不 正确 地 降低 它们 的 计时 器 (因为 已 经 收 到 一 个 表明 兴趣 的 合法 报告 )。 


9.4.6 IGMP 和 MLD 计数 器 和 变量 


IGMP 和 MLD 是 软 状态 的 协议 ， 它 们 也 处 理 路 由 器 的 失效 、 协 议 报 文 的 丢失 以 及 与 早 
期 协议 版 本 的 互 操作 性 。 很 多 设备 是 基于 触发 状态 改变 和 协议 动作 的 计时 器 来 启用 这 些 功 能 
的 。 表 9-3 总 结 了 IGMP 和 MLD 使 用 的 所 有 的 配置 参数 和 状态 变量 。 

在 表 9-3 中 ， 很 显然 ， MLD 和 IGMP 共享 大 部 分 的 计时 器 和 配置 参数 ， 虽 然 在 某 些 情 
况 下 术语 是 不 同 的 。 那 些 表 示 为 “不 能 改变 ”的 一 些 值 是 根据 其 他 值 设置 的 ， 不 能 独立 变化 。 


表 9-3 IGMP 和 MLD 的 参数 和 计时 器 的 值 。 大 多 数值 可 以 作为 配置 参数 在 一 些 实现 中 改变 
名 称 和 意义 默认 值 (限制 ) 
ie om Variable, RV) 一 一 为 一 些 状态 改变 报告 /查询 安排 2 (不 能 为 0; 不 应 该 为 1) 
查询 间隔 (Query Interval, QI) 一 一 当前 查询 器 发 送 的 一 般 查 询 之 间 的 时 间 | .125s 
查询 响应 间隔 ( Query Response Interval, QRI) 一 一 等 待产 生 报告 的 最 大 响 it 
应 时 间 。 该 值 编码 形成 最 大 响应 字段 
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( 续 ) 
名 称 和 意义 默认 值 (限制 ) 
IGMP 中 的 组 成 员 间 隔 ( Group Membership Interval, GMI) 和 MLD 中 的 组 
播 地 址 侦 听 间隔 ( Multicast Address Listening Interval, MALI) 一 一 对 于 组 播 y 
路 由 器 来 说 ， 没 有 看 到 一 个 报告 所 必须 经 过 的 时 间 ， 用 以 宣布 对 于 一 个 组 或 是 | RY O OR (不 能 改变 ) 
源 /组 的 组 合 没 有 兴趣 了 


IGMP 中 的 其 他 查询 出 现 间隔 (Other Querier Present Interval) 和 MLD 中 的 
其 全 查询 出 现 超 时 ( Other Querier Present Timeout) 对 于 一 个 非 查询 器 组 
播 路 由 器 来 说 ， 没 有 看 到 一 个 一 般 查 询 所 必须 经 过 的 时 间 ， 用 以 宣布 没有 活动 





RV * QI + (0.5) *QRI( 不 能 改变 ) 


的 查询 器 

启动 查询 间隔 ( Startup Query Interval) 一 一 查询 器 刚 启 动 时 发 送 的 一 般 查询 (0.25) * QI 
之 间 的 时 间 间 隔 

启动 查询 数量 (Startup Query Count) 一 一 查询 器 刚 启动 时 发 送 的 一 般 查 询 
的 数量 aii 


IGMP 中 的 最 后 成 员 查询 间隔 (Last Member Query Interval, LMQI) 和 
MLD 中 的 最 后 侦 听 方 查询 间隔 (Last Listener Query Interval, LLQI) 一 一 等 
待 响 应 特定 查询 的 报告 产生 的 最 大 响应 时 间 。 该 值 编码 形成 特定 查询 中 的 最 大 
响应 字段 

IGMP 中 的 最 后 成 员 查 询 数量 ( Last Member Query Count) 和 MLD 中 的 最 
后 侦 听 方 查询 数量 (Last Listener Query Count) 一 一 发 送 特定 查询 而 没有 接收 | RV 
到 响应 的 数量 ， 用 以 宣布 没有 感 兴趣 的 主机 

主动 报告 间隔 (Unsolicited Report Interval) 
之 间 的 时 间 

旧版 本 查询 器 出 现 超时 (Older Version Querier Present Timeout) 一 一 主机 没 
有 接收 到 IGMPv1 或 IGMPv2 请 求 报告 而 恢复 到 IGMPv3 所 需要 等 待 的 时 间 

IGMP 中 的 旧 主 机 出 现 间隔 (Older Host Present Interval) 和 MLD 中 旧版 本 
主机 出 现 超 时 ( Older Version Host Present Timeout) 一 一 查询 器 没有 接收 到 | RV* QI+QRI (不 能 改变 ) 
IGMPv1 或 IGMPYv2 报告 报 文 而 恢复 到 IGMP v3 所 需要 等 待 的 时 间 





主机 初始 状态 改变 报告 重 传 i 


RV * QI + QRI (不 能 改变 ) 


9.4.7 IGMP 和 MLD 探听 


IGMP 和 MLD 管理 路 由 器 之 间 卫 组 播 流量 的 流动 。 为 了 进一步 优化 流量 流动 ， 对 于 第 
2 层 交 换 机 ( 即 通常 不 会 处 理 第 3 层 IGMP 或 MLD 报 文 ) 来 说 ， 通 过 查看 在 第 3 层 的 信息 了 
解 它 对 特定 的 组 播 流量 流 动 是 否 有 兴趣 ， 这 是 可 能 的 。 该 功能 通过 称 为 IGMP (MLD) 探听 
(snooping) [RFC4541] 的 交换 机 特征 指明 ， 并 且 被 很 多 交换 机 供应 商 支 持 。 没 有 IGMP 探听 ， 
交换 机 通常 沿 着 所 有 交换 机 形成 的 生成 树 的 所 有 分 支 广播 它 来 发 送 链 路 层 流量 。 这 是 一 种 浪 
费 ， 如 我 们 前 面 描述 的 原因 。IGMP (MLD) 感知 的 (有 时 也 把 IGMP 探听 称 为 IGS) 交换 机 
监控 主机 和 组 播 路 由 器 之 间 的 IGMP (MLD) 流量 ， 并 且 能 记录 哪些 端口 需要 哪些 特定 的 组 
播 流 动 ， 这 和 组 播 路 由 器 的 做 法 很 相似 。 这 样 做 能 够 实质 地 影响 在 一 个 交换 网 络 中 正在 被 承 
载 的 不 需要 的 组 播 流 量 的 数量 。 

有 几 个 细节 使 得 IGMP/MLD 探听 的 直接 实现 变 得 复杂 。 在 IGMPv3 和 MLDv2 中 ， 生 
成 报告 响应 查询 。 然 而 ， 在 这 些 协议 的 早期 版 本 中 ， 一 台 主 机 生成 的 报告 ， 被 相同 链 路 上 的 
其 他 组 成 员 侦 听 ， 导 致 了 其 他 成 员 抑 制 它们 的 报告 。 如 果 IGS 交换 机 要 将 报告 转发 到 所 有 连 
接 的 接口 上 ， 这 可 能 会 导致 一 个 问题 ， 因 为 在 一 些 LAN (VLAN) 段 上 的 主机 和 组 成 员 可 能 
没有 被 通知 。 因 此 ， 支 持 早期 版 本 的 IGMP 和 MLD 的 IGS 交换 机 避免 向 所 有 的 接口 广播 报 
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告 。 相 反 ， 它 们 只 向 最 近 的 组 播 路 由 器 转发 报告 。 如 果 使 用 组 播 路 由 器 发 现 (MRD) ( 见 第 8 
章 )， 确 定 组 播 路 由 器 的 位 置 就 变 得 更 简单 了 。 

实现 探听 时 的 另 一 个 值得 关注 的 问题 是 IGMP 和 MLD 之 间 的 报 文 格式 上 的 差异 。 由 于 
MLD 被 封装 为 ICMPv6 的 一 部 分 ， 而 不 是 自己 单独 的 协议 ， 因 此 MLD 探听 交换 机 必须 处 理 
ICMPv6 信息 ， 并 小 心地 从 其 他 报 文中 分 离 出 MLD 报 文 。 尤 其 是 ， 由 于 ICMPv6 用 于 其 他 
各 种 功能 ( 见 第 8 章 )， 其 他 的 ICMPv6 流量 必须 被 允许 自由 流动 。 

其 他 非 标准 的 专 有 协议 已 经 被 实现 ， 可 以 进一步 优化 通过 第 2 层 设备 运载 的 JP 组 播 
流量 。 例 如 ， 思 科 提 出 了 路 由 器 端口 组 管理 协议 (Router-port Group Management Protocol, 
RGMP) [RFC3488]。 在 RGMP 中 采用 了 一 种 机 制 ， 这 样 主机 不 仅 报告 它们 的 组 和 感 兴 趣 的 
源 (如 在 IGMP/MLD 中 )， 而 且 组 播 路 由 器 也 这 样 做 。 该 信息 用 来 优化 组 播 路 由 器 (不 仅仅 
是 主机 ) 之 间 的 组 播 流量 在 第 2 层 的 转发 。 


9.5 与 IGMP 和 MLD 相关 的 攻击 

由 于 IGMP 和 MLD 是 信 令 协议 ， 可 以 控制 组 播 流 量 的 流动 ， 使 用 这 些 协 议 的 攻击 主要 
是 DoS 攻击 或 资源 使 用 攻击 。 也 有 攻击 利用 协议 的 实现 错误 来 禁用 主机 或 导致 它们 执行 攻击 
者 提供 的 代码 。 

一 个 简单 的 DoS 攻击 可 以 通过 发 送 IGMP 或 MLD 来 订阅 大 量 的 高 带宽 的 组 播 组 来 发 
起 。 这 样 做 会 引起 带宽 耗 尽 ， 导 致 拒绝 服务 。 一 个 更 复杂 的 攻击 可 能 通过 使 用 相对 较 小 的 IP 
地 址 生成 请 求 来 发 起 。 在 这 种 情况 下 ， 攻 击 者 当选 为 链 路 的 查询 器 ， 可 以 通知 它 自 己 的 鲁 棒 
性 变量 、 查 询 时 间 间 隔 和 将 要 被 其 他 组 播 路 由 器 采用 的 最 大 响应 时 间 。 如 果 最 大 响应 时 间 是 
非常 小 的 ， 主 机 被 诱导 来 迅速 发 送 报告 ， 消 耗 了 CPU 资源 。 

一 些 攻击 已 经 通过 利用 实现 错误 来 实施 。 分 片 的 IGMP 分 组 已 经 被 用 来 在 特定 的 操作 系 
SPR SH. Hit, 使 用 SSM 信息 的 特制 的 IGMP 或 MLD 报 文 已 经 用 于 诱导 远程 代码 执 
行 错误 。 总 体 而 言 ，IGMP 或 MLD 漏洞 的 影响 往往 比 其 他 协议 要 小 ， 因 为 组 播 往往 只 是 支 
持 当 地 。 其 结果 是 ,缺乏 接 入 到 目标 LAN 的 链 路 的 远程 攻击 者 可 能 是 有 限 的 。 


9.6 总 结 


一 般 来 说 ， 广 播 是 指向 网 络 上 的 所 有 节点 发 送 流 量 。 在 TCP/IP 的 背景 下 ,广播 是 指向 
网 络 或 子 网 中 的 所 有 主机 发 送 一 个 数据 分 组 ,通常 是 本 地 连接 的 网 络 。 组 播 是 只 向 网 络 中 的 
一 个 子 集 节点 发 送 流量 。 在 TCP/IP 中 ,组 播 是 指向 网 络 中 感 兴趣 的 主机 的 一 个 子 集 发 送 数 
据 分 组 。 选 择 子 集 的 方法 依赖 于 组 播 流 量 的 范围 和 接收 方 的 兴趣 。 在 许多 应 用 中 ， 组 播 比 广 
播 更 好 ， 因 为 组 播 给 没有 参加 通信 的 主机 带 来 更 少 的 开销 。 广 播 在 IPv4 中 支持 ,但 在 IPv6 
中 不 支持 。 广 播 和 组 播 可 以 避免 通过 重复 使 用 单 播 连接 将 相同 的 内 容 发 送 到 多 个 目的 地 。 它 
也 可 以 被 用 于 发 现 未 知 的 服务 器 。 组 播 是 比 广播 更 复杂 的 一 种 功能 ， 因 为 必须 维护 状态 以 确 
定 哪些 主机 对 哪些 组 有 兴趣 。 

在 IPv4 中 ， 有 两 种 类 型 的 广播 地 址 : 受 限 (255.255.255.255) 和 定向 。 定 向 广播 地 址 
基于 网 络 前 级 和 它 的 长 度 ， 通 过 创建 一 个 初始 位 和 网 络 前 缀 相等 、 低 序 位 被 置 1 的 32 位 地 
址 形成 。 通 常 使 用 定向 广播 代替 受 限 广 播 地 址 是 更 可 选 的 。 选 择 哪 些 接口 用 于 发 送 传 出 的 广 
播 流 量 依赖 于 操作 系统 。 一 个 典型 的 例子 是 使 用 一 个 主 接口 用 于 有 限 广 播 流 量 ， 使 用 保存 在 
主机 的 转发 表 中 的 信息 来 选择 传 出 定向 广播 和 组 播 的 接口 。 
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IP 的 组 播 支持 一 种 模型 ， 借 以 实现 对 接收 组 播 数据 分 组 感 兴趣 的 进程 在 一 组 特定 接口 上 
订阅 一 个 特定 组 (使 用 卫 地 址 )。 在 具有 组 播 功能 的 IEEE 链 路 层 网 络 上 《如 以 太 网 )， 传 输 
组 播 IPv4 流量 涉及 结合 组 地 址 的 低 序 23 位 和 前 绥 01:00:5e 来 形成 用 于 链 路 层 组 播 的 MAC 
层 目的 地 址 。 传 输 IPv6 组 播 流 量 涉及 结合 组 地 址 的 低 序 32 位 和 16 位 前 级 33:33 来 形成 
MAC 层 目 的 地 址 。 这 些 映 射 不 是 唯一 的 ， 也 就 是 说 ， 多 个 IPv4 或 IPv6 组 地 址 使 用 相同 的 
MAC 层 地 址 。 因 此 ， 主 机 软件 执行 传人 流量 过 滤 以 除去 不 需要 的 组 流量 。 

f IGMP 和 MLD 协议 分 别 在 IPv4 和 IPv6 中 用 于 支持 组 播 数据 分 组 交付 。 组 播 路 由 器 向 
附近 的 主机 发 送 查询 报 文 以 确定 哪些 主机 对 哪些 组 有 兴趣 ， 以 及 (对 于 IGMPv3 和 MLDv2 ) 
哪些 发 送 者 对 这 些 组 来 说 是 感 兴趣 的 。 主 机 通过 发 送 报告 来 响应 ， 该 报告 指明 了 对 组 的 
兴趣 。MLD Æ ICMPv6 协议 的 一 部 分 ， 而 IGMP 是 一 个 位 于 IPv4 上 层 的 独立 协议 (例如 
ICMP)。 有 些 交换 机 配备 了 “探听 ”IGMP 和 MLD 流量 的 功能 ， 用 以 避免 沿 着 生成 树 分 支 
发 送 组 播 IP 流量 ， 因 为 其 中 有 些 分 支 存在 没有 兴趣 的 接收 主机 。IGMP 和 MLD 有 一 个 “ 
棒 性 变量 *"， 可 以 设置 来 启用 网 络 上 易于 丢失 的 重要 信息 的 重 传 。 

H F IGMP 和 MLD 都 是 信 令 协议 ， 可 以 控制 其 他 流量 的 流动 ， 针 对 它们 的 攻击 往往 会 
引起 额外 的 资源 消耗 ， 可 能 导致 拒绝 服务 。 其 他 形式 攻击 利用 已 经 发 现 的 实现 漏洞 ， 导 致 执 
行 由 攻击 者 提供 的 不 需要 的 代码 。 由 于 MLD (All MLDv2 ) 在 部 署 方面 相对 较 新 ， 发 现 额外 
的 漏洞 是 有 可 能 的 ， 但 这 些 协 议 限制 在 单一 链 路 的 操作 。 
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10.1 引言 


UDP 是 一 种 保留 消息 边界 的 简单 的 面向 数据 报 的 传输 层 协议 。 它 不 提供 差错 纠正 、 队 
列 管理 、 重 复 消 除 、 流 量 控制 和 拥塞 控制 。 它 提供 差错 检测 ， 包 含 我 们 在 传输 层 中 碰 到 的 第 
一 个 真实 的 端 到 端 (end-to-end) 校 验 和 。 这 种 协议 自身 提供 最 小 功能 ， 因 此 使 用 它 的 应 用 程 
序 要 做 许多 关于 数据 包 如 何 发 送 和 处 理 的 控制 工作 。 想 要 保证 数据 被 可 靠 投 递 或 正确 排序 ， 
应 用 程序 必须 自己 实现 这 些 保护 功能 。 一 般 来 说 ， 每 个 被 应 用 程序 请 求 的 UDP 输出 操作 只 
产生 一 个 UDP 数据 报 ， 从 而 发 送 一 个 全 数据 报 。 这 不 同 于 面向 数据 流 的 协议 ,例如 TCP 
( 见 第 15 章 )， 应 用 程序 写 人 的 全 部 数据 与 真正 在 单个 人 P 数据 报 里 传送 的 或 接收 方 接收 的 内 
容 可 能 没有 联系 。 

[RFC0768] 是 UDP 的 正式 规范 ， 它 至 今 仍然 是 一 个 标准 ，30 多 年 来 没有 做 过 重大 的 修 
改 。 如 前 所 述 ，UDP 不 提供 差错 纠正 : 它 把 应 用 程序 传 给 IP 层 的 数据 发 送出 去 , 但 是 并 不 
保证 它们 能 够 到 达 目 的 地 。 另 外 ， 没 有 协议 机 制 防止 高 速 UDP 流量 对 其 他 网 络 用 户 的 消极 
影响 。 考 虑 到 这 种 可 靠 性 和 保护 性 的 缺失 ， 我 们 可 能 会 认为 使 用 UDP 一 点 好 处 也 没有 。 但 
是 ， 这 是 不 对 的 。 因 为 它 的 无 连接 特征 ， 它 要 比 其 他 的 传输 协议 使 用 更 少 的 开销 。 另 外 ， 广 
播 和 组 播 操作 ( 见 第 9 BE) 更 多 直接 使 用 像 UDP 这 样 的 无 连接 传输 。 最 后 ， 应 用 程序 可 选择 
自己 的 重 传单 元 的 能 力 是 一 项 重要 的 考虑 (例如 ， 见 [CT90])。 

图 10-1 显示 了 一 个 UDP 数据 报 作为 单个 IPv4 数据 报 的 封装 。IPv6 的 封装 是 类 似 的 ， 
但 是 一 些 细 节 有 少许 不 同 ， 我 们 在 10.5 节 讨 论 它们 。IPv4 WR (Protocol) 字段 用 值 17 KER 
W UDP, IPv6 则 在 下 一 个 头 部 (Next Header) 字段 使 用 相同 的 值 。 在 本 章 稍 后 我 们 将 探讨 当 
UDP 数据 报 大 小 超过 MTU 时 会 发 生 什么 ， 数 据 报 必须 被 分 片 成 多 于 一 个 的 卫 层 分 组 。 
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图 10-1 单个 IPv4 数据 报 中 的 UDP 数据 报 封装 (通常 情况 下 没有 IPv4 选项 )。IPv6 封装 是 类 似 的 ， 
UDP 头 部 跟随 在 头 部 链 之 后 





10.2 UDP 头 部 
图 10-2 显示 了 一 个 包含 负载 和 UDP 头 部 (通常 是 8 字 节 ) 的 UDP 数据 报 。 
端口 号 相当 于 邮箱 ( mailbox)， 帮 助 协议 辨认 发 送 和 接收 进程 ( 见 第 1 章 )。 它 们 纯 属 抽 
象 的 (abstract) 一 一 它们 不 与 主机 上 的 任何 物理 实体 相关 。 在 UDP 中 ， 端 口号 是 正 的 16 比 
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特 的 数字 ， 源 端口 号 是 可 选 的 ; 如 果 数 据 报 的 发 送 者 不 要 求 对 方 回复 的 话 ， 它 可 被 置 成 0。 
传输 协议 ， 如 TCP UDP 和 SCTP [RFC4960]， 使 用 目的 端口 来 帮助 分 离 从 IP 层 进入 的 数据 。 
因为 IP 层 根据 IPv4 头 部 中 的 协议 字段 或 IPv6 头 部 中 的 下 一 个 头 部 字段 的 值 将 进入 的 卫 数 
据 报 分 离 到 特定 的 传输 协议 ， 这 意味 着 端口 号 在 不 同 的 传输 协议 之 间 是 独立 的 。 也 就 是 说 ， 
TCP 端口 号 只 能 被 TCP 使 用 ，UDP 端口 号 只 能 被 UDP 使 用 ， 如 此 类 推 。 这 样 的 分 离 导致 的 
一 个 直接 结果 是 两 个 完全 不 同 的 服务 器 可 以 使 用 相同 的 端口 号 和 1IP 地 址 ， 只 要 它们 使 用 不 
同 的 传输 协议 。 
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负载 数据 ( 如 果 有 的 话 ) 
(长 度 可 变 ) 





图 10-2 UDP 头 部 和 负载 (数据 ) 区 。 校 验 和 ( Checksum) 字段 是 端 到 端的 ， 是 对 包含 了 IP 头 部 中 的 
源 (Source) 和 目的 IP 地 址 -( Destination Address) 字段 的 UDP 伪 头 部 计算 得 到 的 。 因 此 , 任 
何 对 这 些 字段 的 修改 (如 ， 由 NAT) 都 需要 对 UDP 校 验 和 进行 修改 


注意 尽管 有 这 种 独立 性 ， 但 是 如 果 某 个 众所周知 的 服务 可 同时 由 TCP 和 UDP 提 
BE (或 者 可 信服 地 提供 )， 那 么 这 两 个 传输 协议 的 端口 号 通常 被 分 配 成 一 样 的 。 关 
于 如 何 规范 地 分 配 端 口号 ， 详 见 [IPORT]。 


参考 图 10-2，UDP KË (Length) 字段 是 UDP 头 部 和 UDP 数据 的 总 长 度 ， 以 字 节 为 
单位 。 这 个 字段 的 最 小 值 是 8， 除非 使 用 了 带 有 IPv6 超 长 数据 报 (jumbogram) 的 UDP (Jt 
10.5 节 )。 发 送 一 个 带 0 字 节 数据 的 UDP 数据 报 是 允许 的 ， 尽 管 这 很 少见 。 值 得 注意 的 是 
UDP 长 度 字段 是 元 余 的 ; IPv4 头 部 包含 了 数据 报 的 总 长 度 ( 见 第 5 章 )， 同 时 IPv6 头 部 包含 
了 负载 长 度 。 因 此 ， 一 个 UDP/IPv4 数据 报 的 长 度 等 于 IPv4 数据 报 的 总 长 度 减 去 IPv4 头 部 
的 长 度 。 一 个 UDP/IPv6 数据 报 的 长 度 等 于 包含 在 IPv6 头 部 中 的 负载 长 度 (Payload Length) 
字段 的 值 减 去 所 有 扩展 头 部 (除非 使 用 了 超 长 数据 报 ) 的 长 度 。 在 这 两 种 情况 下 ，UDP 长 度 
字段 的 值 应 该 与 从 IP 层 提供 的 信息 计算 得 到 的 长 度 是 一 致 的 。 


10.3 UDP 校 验 和 


UDP 校 验 和 是 我 们 遇 到 的 第 一 个 端 到 端的 传输 层 校 验 和 (ICMP 有 一 个 端 到 端的 校 验 
和 ， 但 它 不 是 一 个 真正 的 传输 协议 )。 它 覆盖 了 UDP 头 部 、UDP 数据 和 一 个 伪 头 部 (在 本 节 
稍 后 有 定义 )。 它 由 初始 的 发 送 方 计算 得 到 ， 由 最 终 的 目的 方 校 验 。 它 在 传送 中 不 会 被 修改 
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(除非 它 通过 一 个 NAT， 如 第 7 章 所 述 )。 回 想 一 下 IPv4 头 部 中 的 校 验 和 只 覆盖 整个 头 部 ( 即 
它 并 不 覆盖 IP 分 组 中 的 任何 数据 )， 它 在 每 个 IP 跳 都 要 被 重新 计算 (因为 IPv4 TTL 字段 的 
值 在 数据 报 转发 时 会 被 路 由 器 减少 )。 传 输 协 议 (如 TCP, UDP) 使 用 校 验 和 来 覆盖 它们 的 
头 部 和 数据 。 对 于 UDP 来 说 ， 校 验 和 是 可 选 的 (尽管 强烈 推荐 使 用 )， 而 其 他 的 则 是 强制 的 。 
当 UDP 在 IPv6 中 使 用 时 ， 校 验 和 的 计算 与 使 用 是 强制 的 ， 因 为 在 IP 层 没有 头 部 校 验 和 。 
为 了 给 应 用 程序 提供 无 差错 数据 ， 像 UDP 这 样 的 传输 层 协 议 ， 在 投递 数据 到 接收 方 应 用 程 
序 之 前 ， 必 须 计 算 校 验 和 或 者 使 用 其 他 差错 检测 机 制 。 

虽然 计算 UDP 校 验 和 的 基本 方法 与 我 们 在 第 5 章 描述 的 普通 互联 网 校 验 和 (16 位 字 的 
反 码 和 的 反 码 ) 类 似 ， 但 是 要 注意 两 个 小 的 细节 。 首 先 , UDP 数据 报 长 度 可 以 是 奇数 个 字 节 ， 
而 校 验 和 算法 只 相 加 16 位 字 (总 是 偶数 个 字 节 )。UDP 的 处 理 过 程 是 在 奇数 长 度 的 数据 报 尾 
部 追加 一 个 值 为 0 的 填充 OE) 字 节 ， 这 仅仅 是 为 了 校 验 和 的 计算 与 验证 。 这 个 填充 字 节 实 
际 上 是 不 会 被 传送 出 去 的 ， 因 此 在 这 里 称 之 为 “ 虚 ” 的 。 

第 二 个 细节 是 UDP (也 包括 TCP) 计算 它 的 校 验 和 时 包含 了 (仅仅 ) 衍生 自 IPv4 头 部 的 
字段 的 一 个 12 字 节 的 伪 头 部 或 衍生 自 IPv6 头 部 的 字段 的 一 个 40 字 节 的 伪 头 部 。 这 个 伪 头 
部 也 是 虚 的 ， 它 的 目的 只 是 用 于 校 验 和 的 计算 (在 发 送 方 和 接收 方 )。 实 际 上 ， 它 从 来 不 会 
被 传送 出 去 。 这 个 伪 头 部 包含 了 来 自 IP 头 部 的 源 和 目的 地 址 以 及 协议 或 下 一 个 头 部 字段 ( 它 
的 值 应 该 是 17 )。 它 的 目的 是 让 UDP 层 验证 数据 是 否 已 经 到 达 正 确 的 目的 地 ( 即 , IPR 
有 接受 地 址 错误 的 数据 报 ， 也 没有 给 UDP 一 个 本 该 是 其 他 传输 协议 的 数据 报 )。 图 10-3 显 
示 了 计算 UDP BEI A EBL, AL TPR UDP 头 部 和 负载 。 
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源 IP 地 址 
(4 字 节 ; 源 自 IPv4 头 部 ) 




































目的 中 地 址 UDP 
(4 字 节 ; 源 自 IPv4 头 部 ) 伪 头 部 
IPv4 头 部 ) (2H) 
目的 端口 号 
(2 字 节 ) (2 字 节 ) 
UDP 
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UDP 校 验 和 
(2 字 节 ) 








图 10-3 用 于 计算 UDP/IPv4 数据 报 的 字段 ， 包 含 了 伪 头 部 、UDP 头 部 和 数据 。 如 果 数 据 不 是 偶数 个 
字 节 长 ， 它 会 被 填充 一 个 值 为 0 的 字 节 以 计算 校 验 和 。 伪 头 部 和 任何 填充 的 数据 不 会 与 数据 
报 一 起 被 传送 出 去 
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注意 ”细心 的 读者 会 发 现 这 会 导致 所 谓 的 “违反 分 层 ”( layering violation) 规则 。 
Bp, UDP 协议 (传输 层 ) 直接 操作 IP (MAA) 的 比特 。 没 错 ， 但 这 只 对 协议 实现 
产生 微小 的 影响 ， 因 为 一 般 来 说 ， 当 数据 传递 到 (或 来 自 于 ) UDP H, IP 层 的 信息 
已 经 是 现成 的 了 。 相 比 之 下 ， 更 应 该 关注 NAT ( 见 第 7 章 )， 特 别 是 当 UDP 数据 报 
被 分 片 时 。 


图 10-3 显示 了 一 个 数据 是 奇数 长 度 的 数据 报 需 要 一 个 填充 字 节 来 完成 校 验 和 的 计算 。 
注意 到 UDP 数据 报 的 长 度 在 校 验 和 的 计算 中 出 现 了 两 次 。 如 果 计 算出 来 的 校 验 和 的 值 正好 
是 0x0000， 它 在 头 部 中 会 被 保存 成 全 1( 0xFFFF)， 等 于 算术 反 码 ( 见 第 $ 章 )。 一旦 被 接收 ， 
校 验 和 字段 值 为 0x0000 表示 发 送 方 没有 计算 校 验 和 。 如 果 发 送 方 的 确 计 算 了 校 验 和 ， 而 接 
收 方 也 检测 到 一 个 校 验 差错 ，UDP 数据 报 就 会 被 毫 无 声息 地 放弃 。 尽 管 会 有 一 些 统计 计数 被 
更 新 ， 但 却 没有 差错 消息 产生 。( 这 就 是 一 个 IPv4 头 部 校 验 差错 被 检测 到 时 会 发 生 的 事情 。) 
i 尽管 UDP 数据 报 校 验 和 在 原始 UDP 规范 中 是 可 选 的 ， 目 前 它们 还 是 被 要 求 在 主机 中 
477| 默认 使 用 [RFC1122]。 在 20 世纪 80 年 代 ， 一 些 计算 机 供应 商 默 认 关闭 了 UDP 校 验 和 功能 
以 加 速 其 Sun 网 络 文件 系统 (NFS) 的 实现 ， 该 网 络 文件 系统 使 用 了 UDP。 因 为 有 第 2 层 的 
CRC 保护 (这 要 比 互 联网 校 验 和 更 强壮 ， 见 第 3 章 )， 在 许多 情况 下 这 可 能 不 会 产生 问题 ， 
然而 默认 关闭 校 验 和 功能 被 认为 是 一 种 不 好 的 方法 (也 是 违反 RFC 规范 的 )。 早 期 的 互联 网 
经 验 表 明 ， 当 数据 报 通 过 路 由 器 时 ， 关 于 它们 的 正确 性 的 所 有 赌注 都 会 失败 。 信 不 信和 由 你 ， 
总 会 存在 有 软件 和 硬件 漏洞 的 路 由 器 在 转发 数据 报时 会 修改 其 中 的 比特 。 如 果 端 到 端的 UDP 
校 验 和 被 关闭 的 话 ， 这 些 UDP 数据 报 中 的 错误 就 无 法 检测 到 。 同 时 注意 到 一 些 更 老 的 数据 
链 路 协议 〈 比 如 ， 串 行 线 卫 或 SLIP) 没有 任何 形式 的 数据 链 路 校 验 和 ， 因 此 存在 IP 分 组 被 
修改 而 检测 不 到 的 可 能 性 ， 除 非 引 入 另 一 种 校 验 和 。 


注意 [RFC1122] 要 求 UDP 校 验 和 被 默认 使 用 。 它 也 指出 如 果 发 送 方 计 算 了 校 验 
和 (也 就 是 说 ， 如 果 接 收 到 的 校 验 和 不 是 0 )， 那 么 必须 要 有 一 种 实现 来 验证 接收 到 


考虑 到 伪 头 部 这 样 的 结构 ， 可 以 很 清楚 地 看 到 ， 当 一 个 UDP/IPv4 数据 报 穿 过 一 个 NAT 
时 ， 不仅 他 层 头 部 的 校 验 和 要 被 修改 ， 而 且 UDP 伪 头 部 的 校 验 和 也 必须 被 正确 地 修改 ， 因 
为 IP 层 的 地 址 和 /或 UDP 层 的 端口 号 可 能 会 改变 。 因 此 NAT 通常 因 同时 修改 分 组 中 协议 的 
多 层 而 违反 分 层 规则 。 当 然 ， 考 虑 到 伪 头 部 本 身 就 是 违反 分 层 规则 的 ，NAT 没有 选择 。UDP 
流量 被 NAT 处 理 时 的 一 些 特定 规则 由 [RFC4784] 给 出 。 在 第 7 章 我 们 也 简单 地 讨论 过 它们 。 

近来 已 有 兴趣 关注 于 对 UDP 校 验 和 的 松懈 使 用 ， 主 要 是 一 些 对 差错 不 完全 看 重 的 应 用 
(多 媒体 应 用 是 典型 的 例子 )。 这 些 讨 论 关系 到 是 否 有 部 分 校 验 和 (partial checksum)， 这 是 
一 个 很 有 价值 的 概念 。 部 分 校 验 和 只 覆盖 由 应 用 程序 指定 的 负载 的 一 部 分 。 在 10.6 节 关 于 
UDP-Lite 的 内 容 里 我 们 再 讨论 它 。 


10.4 例子 


我 们 将 使 用 sock 程序 [SOCK] 来 生成 一 些 UDP 数据 报 ， 并 且 可 以 在 tcpdump 中 查看 它 

们 。 在 第 一 个 例子 里 ， 我 们 在 目标 机 器 上 的 丢弃 端口 (9 ) 运行 着 一 个 服务 器 。 在 第 二 个 例 
子 里 ， 我 们 关闭 了 服务 器 ， 客 户 机 收 到 了 这 个 事实 的 通知 ， 像 例子 里 显示 的 。 出 于 安全 考 

[478] 虑 ， 在 典型 的 机 器 配置 里 ， 基 于 UDP 的 服务 极 少 是 可 用 的 ， 因 此 例子 的 第 二 部 分 并 不 少见 。 
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Linux% sock -v -u -i 10.0.0.3 discard 
connected on 10.0.0.5.46274 to 10.0.0.3 
wrote 1024 bytes 

sats (1023 more times) 


Linux? sock -v -u -i 10.0.0.3 discard 

connected on 10.0.0.5.46294 to 10.0.0.3 

wrote 1 bytes 

write returned -1, expected 1024: Connection refused 


T 我 们 运行 sock 程序 时 ， 指 定 了 详细 模式 -v 以 查看 用 到 的 短暂 端口 号 ，-u 指定 UDP 而 
非 默认 的 TCP， 同 时 使 用 -i 选项 去 发 送 数据 而 不 是 尝试 去 读 和 写 标 准 输入 和 输出 。 数 据 报 个 
数 的 默认 值 (1024) 被 发 送 到 IP 地 址 为 10.0.0.3 的 目标 主机 。 在 这 个 例子 里 ,我 们 已 经 安排 
了 一 个 服务 器 去 处 理 这 些 进 入 的 数据 报到 丢弃 端口 。 为 了 捕获 已 发 送 的 流量 ,我 们 在 一 台 有 
流量 流 的 主机 上 使 用 下 面 的 命令 : 

Linux# tcpdump -n -p -s 1500 -vvv host 10.0.0.3 and \( udp or icmp \) 

这 个 命令 捕获 这 两 台 机 器 之 间 的 任何 UDP 或 ICMP 流量 (也 有 可 能 是 其 他 在 这 里 没 列 
出 的 机 器 的 额外 流量 )。-s 1500 选项 指使 ttpdump 收集 分 组 直到 长 度 达 到 1500 字 节 (这 里 ， 
比 我 们 发 送 的 1024 字 节 要 长 )，-vvv 选项 表明 是 详细 打印 输出 。-n 选项 告诉 tcpdump 不 要 把 
IP 地 址 转换 成 主机 名 ，-p 选项 避免 把 默认 网 络 接口 设置 成 混杂 模式 。tcpdump 的 输出 结果 显 
示 在 清单 10-1 中 (为 了 简洁 ， 某 些 行 已 被 整理 )。 


清单 10-1 tcpdump 输出 显示 了 来 自 第 一 个 sock 命令 (服务 器 正在 运行 ) 的 数据 分 组 
1 22:52:53.102838 10.0.0.5.46274 > 10.0.0.3.9: 
[udp sum ok] udp 1024 (DF) (ttl 64, id 24462, len 1052) 
2 22:52:53.102964 10.0.0.5.46274 > 10.0.0.3.9: 
{udp sum ok] udp 1024 (DF) (ttl 64, id 24463, len 1052) 
3 22:52:53.103091 10.0.0.5.46274 > 10.0.0.3.9: 
{udp sum ok] udp 1024 (DF) (ttl 64, id 24464, len 1052) 
4 22:52:53.103215 10.0.0.5.46274 > 10.0.0.3.9: 
[udp sum ok] udp 1024 (DF) (ttl 64, id 24465, len 1052) 
... repeated 1020 times... 


这 个 输出 显示 了 4 个 1052 字 节 的 UDP/IPv4 数据 报 ( 1024 字 节 的 UDP 负载 加 上 8 字 节 
的 UDP 头 部 和 20 字 节 的 IJPv4 头 部 ) 来 自 IPv4 地 址 10.0.0.5 和 端口 46274， 被 发 送 至 端口 
9 (丢弃 端口 )， 分 组 间隔 时 间 大 概 是 100hs。 另 外 ， 我 们 可 以 观察 到 UDP 校 验 和 是 被 启用 和 
有 效 的 (由 tcpdump 校 验 )， 不 分 片 (Don't Fragment, DF) 位 字段 是 打开 的 ，IPv4 TTL 字段 
是 64，IPv4 标识 ( Identification) 字段 对 每 个 数据 报 都 是 不 同 的 (逐个 加 1 )。 没 有 ICMP 流 
量 产生 ， 并 且 似 乎 所 有 数据 都 成 功 投递 到 目的 机 器 ; 因为 没有 确认 ， 我 们 不 能 肯定 。 在 第 13 
章 我 们 应 该 会 看 到 另 一 种 主要 的 传输 协议 TCP， 通 常 在 数据 的 第 一 个 字 节 可 被 发 送 之 前 使 用 
一 个 与 对 方 的 握手 和 后 续 的 确认 来 了 解 什 么 数据 已 经 成 功 传送 到 接收 方 。 

第 二 次 我 们 使 用 相同 的 参数 运行 sock 程序 ， 但 是 这 次 我 们 在 服务 器 关闭 后 发 送 数据 报 
到 丢弃 服务 。 清 单 10-2 显示 了 这 个 例子 的 流量 跟踪 信息 (为 了 简洁 ， 某 些 行 已 被 整理 )。 


清单 10-2 tcpdump 输出 显示 了 来 自主 机 (服务 器 已 关闭 ) A ICMP 目标 不 可 到 达 (端口 不 可 到 达 ) 消息 
1 22:55:07.223094 10.0.0.5.46294 > 10.0.0.3.9: 
[udp sum ok] udp 1024 (DF) (ttl 64, id 37874, len 1052) 


2 22:55:07.223134 10.0.0.3 > 10.0.0.5: icmp: 
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10.0.0.3 udp port 9 unreachable for 
10.0.0.5.46294 > 10.0.0.3.9: 
udp 1024 (DF) (ttl 64, id 37874, len 1052) 
[tos OxcO] (ttl 255, id 63302, len 576) 


在 这 个 例子 里 我 们 看 到 有 些 不 同 的 行为 。 这 里 ， 只 有 单个 UDP 数据 报 被 发 送 ， 同 时 回 
复 中 有 一 个 ICMP 消息 返回 。 尽 管 所 有 其 他 参数 都 是 相同 的 ， 但 是 没有 运行 中 的 服务 器 来 接 
收 这 些 传人 的 数据 报 。 在 这 种 情况 下 ，UDP 的 底层 实现 产生 一 个 ICMPv4 目标 不 可 到 达 ( 端 
口 不 可 到 达 ) 消息 ( 见 第 8 章 )， 并 返回 给 发 送 方 。 这 个 消息 包含 原始 (“违规 ”) 的 数据 报 最 
前 面 的 556 字 节 的 一 个 拷贝 。 如 果 这 个 ICMP 消息 没 被 中 间 网 络 丢弃 (由 防火 墙 偶然 或 有 日 
的 地 )， 发 送 程序 (如 果 ICMP 消息 到 达 时 它 还 在 运行 ) 就 可 以 知道 接收 方 不 存在 并 打印 错误 
信息 ， 如 本 节 开 头 的 清单 所 示 ( 即 消息 write returned -1 )。 值 得 注意 的 是 返回 的 ICMP 错误 
消息 包含 了 充足 的 信息 让 发 送 主机 确定 哪个 端口 不 可 达 。 最 后 ， 应 注意 到 UDP 端口 在 程序 
每 次 运行 时 都 会 改变 。 首 先 它 是 46274， 然 后 是 46294。 我 们 在 第 1 章 提 到 这 些 由 客户 机 使 
用 的 短暂 端口 号 建议 位 于 49152 到 65535 的 范围 ， 因 此 这 里 我 们 观察 到 非 规范 行为 。 


注意 对 于 Linux， 本 机 端口 参数 范围 可 以 很 容易 地 通过 改变 文件 /proc/sys/net/ 
ipv4/ip_local_port_range 的 内 容 进行 修改 。 在 Windows Visa 及 之 后 版 本 中 ， 可 以 
使 用 netsh 命令 设置 动态 端口 范围 [KB929851]。 当 前 端口 号 见 [IPORT]。 


10.5 UDP 和 1Pv6 


考虑 到 简单 性 ， 在 对 IPv6 而 非 IPv4 进行 操作 时 ，UDP 只 需 做 很 小 的 改动 。 最 明显 的 不 
同 就 是 IPv6 使 用 128 位 的 地 址 和 由 此 产生 的 对 伪 头 部 的 结构 带 来 的 影响 。 一 个 相关 却 更 细 
致 的 不 同 在 于 ， 在 IPv6 里 不 存在 IP 层 头 部 校 验 和 。 因 此 ， 如 果 UDP 不 使 用 校 验 和 去 运行 ， 
就 没有 端 到 端 检测 任何 (no end-to-end check whatsoever) IP 层 地 址 信息 的 正确 性 。 鉴 于 此 ， 
当 UDP 用 于 IPv6 时 ， 无 论 是 UDP 还 是 TCP， 伪 头 部 校 验 和 都 是 必需 的 (由 [RFC2460] 第 
8 节 规 定 )。 伪 头 部 的 结构 由 图 10-4 给 出 。 注 意 到 长 度 字 段 已 经 从 它 的 Pv4 相应 字段 扩展 到 
32 位 。 回 想 之 前 所 述 ， 这 个 字段 对 UDP 来 说 是 元 余 的 ， 但 是 我 们 可 以 从 第 13 章 看 到 ， 对 
TCP (无 论 是 TCP/IPv4 还 是 TCP/IPV6 ) 来 说 它 不 是 宛 余 的 ， 因 此 在 UDP/IPv6 和 TCP/IPv6 
中 都 保留 了 该 字段 。 
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源 IPv6 地 址 
(16 字 节 ; 源 自 IPv6 头 部 ) 


伪 头 部 
目的 IPv6 地 址 ( 40 字 节 ) 
(16 字 节 ; 源 自 IPv6 头 部 ) 





KE (4 字 节 ) 














图 10-4 使 用 IPv6 的 UDP (以 及 TCP) 伪 头 部 ([RFC2460])。 这 个 伪 头 部 包含 了 源 和 目的 IPv6 地 址 
以 及 一 个 更 大 的 32 位 的 长 度 字 段 值 。UDP 用 于 IPv6 时 ， 伪 头 部 校 验 和 是 必需 的 ， 因 为 IPv6 
头 部 缺少 校 验 和 。 下 一 个 头 部 字段 拷贝 于 链 中 的 最 后 一 个 IPv6 头 部 


扩展 讨论 一 下 IPv6 分 组 长 度 ，IPv6 分 组 大 小 的 两 个 方面 会 影响 UDP。 第 一 ， 在 IPv6 


房 户 财 握 规 欣 议和 IP ZA 34] 





里 ， 最 小 MTU 大 小 是 1280 字 节 (与 IPv4 要 求 的 需要 所 有 主机 支持 的 最 小 大 小 576 字 节 不 
同 )。 第 二 ，IPv6 支持 超 长 数据 报 (大 于 65535 字 节 的 分 组 )。 如 果 我 们 仔细 查看 IPv6 头 部 
和 选项 集 ( 见 第 5 章 )， 可 以 观察 到 使 用 超 长 数据 报 ，32 位 是 能 够 表示 负载 长 度 的 。 这 意味 
着 单个 UDP/IPv6 数据 报 确实 可 以 非常 大 。 如 [RFC2675] 所 述 ， 对 于 UDP 头 部 中 的 只 有 16 
位 长 的 UDP 长 度 字段 会 产生 一 个 问题 。 这 样 的 话 ， 超 过 65 535 字 节 的 UDP/IPv6 数据 报 被 
封装 在 IPv6 时 ， 它 的 UDP 长 度 字 段 值 会 被 置 成 0。 注意 到 伪 头 部 里 的 长 度 字 段 的 大 小 仍然 
EEK (32 位 )。 对 IPv6 超 长 数据 报 计算 这 个 字段 的 值 ， 涉 及 取 UDP 头 部 加 上 数据 的 总 长 
度 。 当 收 到 一 个 分 组 检查 这 个 字段 时 ， 涉 及 计算 UDP 数据 报 ( 头 部 加 数据 ) 的 大 小 ， 通 过 在 
Jumbo Payload 选项 中 找到 的 值 减 去 所 有 IPv6 扩展 头 部 的 大 小 来 得 到 ， 这 也 是 IPv6 负载 的 
长 度 ( 即 数据 报 总 长 减 40 字 节 的 IPv6 头 部 )。 在 UDP 头 部 中 的 长 度 字 段 是 0 AYA Jumbo 
Payload 选项 存在 的 “意外 的 ”情况 下 ，UDP 长 度 可 以 从 不 等 于 零 的 IPv6 负载 长 度 字 段 中 推 
断 得 到 (IL [RFC2675] 第 4 节 )。 


10.5.1 Teredo: 通过 1IPv4 网 络 隧道 传输 IPv6 


虽然 以 前 人 们 认为 全 世界 过 渡 到 IPv6 会 很 快 发 生 ， 但 是 事实 并 不 像 预料 的 那样 。 结 果 
是 ， 不 少 (理论 上 是 暂时 的 ) 过 渡 机 制 (transition mechanism) [RFC4213][RFC5969] 被 提 
出 来 缓解 过 渡 负担 。 其 中 一 个 叫 6to4 的 机 制 [RFC3056]， 把 在 主机 使 用 的 IPv6 分 组 封装 在 
IPv4 分 组 里 以 在 只 支持 IPv4 的 基础 设施 中 传送 。 与 其 他 互联 网 上 的 应 用 程序 遇 到 过 的 问题 
一 样 ，6to4 也 遇 到 NAT 穿越 问题 。 另 一 个 众所周知 的 扩展 性 问题 使 得 人 们 不 太 愿 意 继续 使 
JAE [RFC6343]。 尽 管 我 们 已 经 看 到 一 些 像 ICE ( 见 第 7 章 ) 的 方法 可 以 很 好 地 解决 这 个 问 
题 ， 但 是 一 个 名 叫 Teredo (原来 叫 “ shipworm ( 船 蛆 六 ， 但 是 为 了 避免 与 计算 机 蠕虫 混淆 ， 
根据 “ 船 蛆 ”的 常见 类 属 的 拉丁 名 字 而 重新 命名 ) 的 专门 协议 已 被 设计 出 来 专门 解决 这 个 问 
fl [RFC4380][RFC5991][RFC6081]。 它 之 所 以 流行 ， 是 因为 它 在 微软 Windows 的 当代 版 本 
中 得 到 了 广泛 的 应 用 。 

Teredo (也 叫 Teredo 隧 道 ) 为 没有 其 他 IPv6 连接 选项 的 系统 传送 IPv6 数据 报 ， 方 法 是 把 
IPv6 数据 报 置 于 UDP/IPv4 数据 报 的 负载 区 里 。 图 10-5 中 给 出 了 一 个 例子 场景 。Teredo 客户 
机 是 实现 了 Teredo 隧道 接口 的 IPv4/IPV6 主机 。 在 成 功 通过 一 个 “资格 认证 ”过 程 (下 一 段 有 
介绍 ) 之 后 ， 接 口 会 被 分 配 一 个 特定 的 以 2001::/32 为 IPv6 前 级 的 Teredo 地 址 。 与 STUN 服 
Bit (第 7 章 ) 的 作用 类 似 ，Teredo 服务 器 用 于 帮助 Teredo 封装 的 IPv6 分 组 建立 直接 通道 以 
F NAT, Teredo 中 继 器 (relay) 与 TURN 服务 器 的 作用 类 似 ， 如 果 有 大 量 客户 在 使 用 的 话 ， 
会 消耗 相当 可 观 的 处 理 资源 。 值 得 注意 的 是 ， 服 务 器 必须 包括 中 继 器 的 所 有 功能 ， 反 之 则 不 
然 。 对 IPv6 连接 来 说 ， 使 用 Teredo 中 继 器 是 “最 后 手段 ” 。 如 果 发 现 其 他 任何 可 选 的 IPv6 E 
接 (比如 ， 直 接连 接 或 使 用 6to4 )， 节 点 就 会 放弃 使 用 Teredo 隧道 技术 。 

参照 图 10-5，Teredo 客户 机 使 用 主机 名 或 IPv4 地 址 和 某 个 Teredo 服务 器 的 UDP 端口 
号 (通常 是 3544 ) 进行 初始 化 配置 。Teredo 一 开始 是 由 微软 开发 的 ， 并 且 有 一 个 名 为 teredo. 
ipv6.microsoft.com 的 Teredo 服务 器 是 可 用 的 。 当 客户 机 准备 获取 一 个 地 址 时 ， 它 就 开始 资 
格 认证 过 程 ( qualification procedure)。 客 户 机 首先 从 使 用 它 的 Teredo 服务 端口 的 一 个 本 地 链 
路 IPv6 地 址 (link-local IPv6 address) 发 送 一 个 ICMPv6 RS 分 组 ( 见 第 8 章 )， 代 理 则 负责 
UDP/IPv4 封装 和 解 封 了 Pv6。 封 装 格式 是 原始 指示 符 格 式 ， 它 是 两 种 封装 格式 中 的 一 种 ， 如 
图 10-6 所 示 。 
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资格 认证 过 程 
(客户 机 获取 
Teredo IPv6 地 址 ) 
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中 继 器 的 Teredo 服 务 端口 
(UDP/IPv4 端 点 ) 






通告 Teredo 前 级 
~, (2001::/32 ) 















客户 机 的 Teredo 服 务 端 口 
(UDP/IPv4 端 点 ) 


IPv4 因 特 网 


映射 的 ITPv4 地 址 和 UDP 端口 号 
(用 在 Teredo IPv6 地 址 里 ) ; 
Teredo 客 户 机 流量 


图 10-5 Teredo， 一 种 IPv6 过 渡 机 制 ， 在 UDP/IPv4 数据 报 的 负载 区 中 封装 IPv6 数据 报 和 可 选 的 追踪 
符 ， 以 使 IPv6 流量 能 经 过 只 支持 IPv4 的 基础 设施 。 服 务 器 帮助 客户 机 获得 一 个 IPv6 地 址 并 
决定 它们 的 映射 地 址 和 端口 号 。 如 果 需 要 ， 中 继 器 在 Teredo, 6to4 及 原生 IPv6 客户 机 间 转 发 
流量 
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IPv4 头 部 
( 20 字 节 ， 不 带 选项 ) 












原始 指示 符 
(8 字 节 ， 只 出 现在 原始 指示 符 封装 里 ) 





i 封装 的 IPv6 数 据 报 
(可 变量 ) 


负载 
类 型 名 称 


0x01 ma ( Nonce ) 追踪 符 

0x02 fi E 7 m 
0x03 ”替换 地 址 (可 变量 ， 如 果 有 的 话 ) 
0x04 ND ( 邻居 发 现 ) 选项 
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简单 封装 
(除非 存在 原始 指示 符 ) 
图 10-6 Teredo 使 用 的 简单 封装 和 原始 指示 符 封装 。 原 始 指示 符 封装 在 UDP 头 部 和 被 封装 的 IPv6 数 
据 报 之 间 携 带 了 UDP 地 址 和 端口 号 信息 。 在 产生 一 个 Teredo 地 址 时 ， 这 些 信 息 可 以 使 得 
Teredo 客户 机 知道 它们 的 映射 地 址 和 端口 号 。 地 址 和 端口 号 被 按 位 取 反 ， 从 而 显得 “混乱 ”， 
这 是 为 了 避免 NAT 试图 去 重 写 这 些 信 息 。 可 能 存在 零 或 多 个 追踪 符 ， 被 编码 成 TLV 三 元 组 。 
它们 被 用 于 实现 许多 Teredo 扩展 (比如 支持 对 称 NAT) 


成 功 回应 是 一 种 ICMPv6 RA 消息 ， 使 用 图 10-6 所 示 的 原始 指示 符 封装 格式 。RA 包 
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含 一 个 前 级 信 息 选项 ， 该 选项 是 一 个 有 效 的 Teredo 前 级 ( 见 第 2 章 )。 原 始 指示 符 为 客户 机 
提供 自身 的 映射 地 址 和 端口 信息 。RA 的 源 地 址 是 服务 器 的 一 个 有 效 的 本 地 链 路 IPv6 地 址 。 
RA 的 目的 地 址 是 客户 机 用 作 RS 消息 源 地 址 的 本 地 链 路 IPv6 地 址 。 假 设 一 切 正常 的 话 ， 客 
户 机 现在 是 “有 资格 的 "， 并 且 可 以 根据 服务 器 提供 的 前 级 和 原始 信息 来 产生 它 的 Teredo 
IPv6 地 址 。Teredo 地 址 是 一 个 IPv6 地 址 ， 使 用 图 10-7 所 示 的 格式 ， 由 多 个 参数 构成 。 




















és. 128 位 的 IPv6 地 址 
Teredo IPv6 前 级 | 服务 器 IPv4 地 址 标志 “| 映射 端口 | ”映射 IPv4 地 址 
(32 位 ) (32 位 ) (16 位 ) | (16 位 ) (32 位 ) 
天 一 一 一 一 | 
2001::/32 Teredo 服 务 器 -一 … 客户 机 的 (映射 ) 地 址 


(对 各 位 取 补 ， 以 使 其 混乱 ) 


a Randoml Random2 | 
指定 felo (az) TS (8 位 ) 


图 10-7 Teredo 客户 机 使 用 带 Teredo 前 缀 2001::/32 的 IPv6 地址 。 随 后 位 包含 了 Teredo 服务 器 的 
IPv4 地 址 、16 位 标志 (用 于 标识 用 到 的 NAT 类 型 和 随机 位 以 帮助 阻止 地 址 猜测 攻击 )、 客 户 
机 的 16 位 映射 端口 号 ， 以 及 客户 机 的 32 位 映射 IPv4 地 址 。 最 后 两 项 是 “混乱 ”的 








一 个 Teredo 地 址 ( 见 图 10-7) 包含 Teredo 前 级 (2001::/32 )、Teredo 服务 器 的 IPv4 地 
址 、 一 个 16 位 的 标志 (Flags) 字段 (在 下 面 详细 介绍 )， 然 后 是 映射 的 端口 号 和 映射 的 IPv4 
地 址 。 最 后 两 项 是 从 Teredo 服务 器 看 到 的 客户 机 的 地 址 信息 ， 经 常 由 客户 机 的 最 外 层 NAT 
决定 。 真 实 的 地 址 和 端口 号 信息 是 按 位 取 反 的 ， 以 使 鲁莽 的 NAT 不 去 重 写 它们 。 

16 位 的 标志 字段 用 于 标识 在 资格 认证 过 程 期 间 发 现 的 NAT 类型。 一 些 NAT (正式 叫 法 
是 对 称 NAT 一 一 具有 地 址 依赖 映射 或 地 址 和 端口 依赖 映射 ， 以 及 地 址 依赖 或 地 址 和 端口 依赖 
过 滤 特 性 的 NAT) 只 有 在 扩展 得 到 支持 时 才能 使 用 Teredo ( 见 本 节 后 面 )， 但 是 大 多 数 普通 
类 型 的 家 庭 网 络 (包括 “ 锥 形 (cone) NAT” 一 一 具有 终端 独立 映射 和 终端 独立 过 滤 特 性 的 
NAT) 不 需要 扩展 的 支持 就 可 以 工作 。 一 开始 ，C (cone NAT) 位 字段 是 用 于 标识 是 否 碰 到 一 
个 锥 形 NAT 并 给 予 合适 的 支持 ， 但 现在 这 种 用 法 被 弃 用 ， 这 个 字段 应 该 置 成 0 (客户 机 忽略 
这 个 字段 ， 服 务 器 检查 它 以 寻找 过 时 的 客户 机 )。 下 一 个 位 字段 置 成 0。U (Universal) 和 G 
(Group) 位 字段 留 给 未 来 使 用 ， 但 现在 被 置 成 0。 根据 [RFC5991] 选择 Random! 和 Random2 
字段 的 随机 值 ， 从 而 使 得 Teredo 地 址 很 难 被 猜 到 (一 种 安全 的 措施 就 是 尽量 减少 潜在 攻击 者 
的 随机 试探 )。 

一 旦 一 个 已 取得 资格 的 客户 机 建立 了 自己 的 Teredo 地 址 ， 它 就 可 以 发 送 IPv6 流量 了 。 
至 于 资格 认证 失败 会 发 生 什么 或 使 用 一 种 安全 资格 认证 的 具体 细节 ， 可 参见 [RFC4380]。 一 
般 来 说 ,一 台 Teredo 客户 机 可 能 想 要 与 另 一 台 在 同一 链 路 中 的 客户 机 、 另 一 台 在 IPv4 互联 
网 中 的 客户 机 或 在 IPv6 互联 网 中 的 一 台 主 机 进行 通信 。 在 每 种 情况 下 ，Teredo 会 提供 一 些 
基于 UDP/IPv4 的 邻居 发 现 来 取代 IPv6。 对 于 在 同一 链 路 中 的 客户 机 ，Teredo 使 用 一 种 组 播 
地 址 为 224.0.0.253 的 IPv4 组 播发 现 协议 。 特 殊 的 Teredo“ 气 泡 ” 分 组 (那些 不 带 数 据 负载 
的 分 组 ) 用 于 判断 目的 地 址 是 否 在 同一 链 路 中 。 这 些 气泡 以 最 小 大 小 的 Teredo 分 组 出 现 ， 使 
用 图 10-6 中 的 简单 封装 格式 。 它 们 包含 一 个 IPv6 头 部 ， 其 中 目的 IP 地 址 字段 被 设 为 这 次 
通信 的 目的 地 。 这 个 IPv6 分 组 包含 一 个 没有 负载 和 附加 扩展 〈 下 一 个 头 部 字段 被 置 为 0x3b， 
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表示 为 空 ) 的 IPv6 头 部 。 对 于 在 IPv4 互联 网 中 的 客户 机 ， 回 想 一 下 Teredo IPv6 地 址 包含 了 
IPv4 映射 地 址 和 端口 号 ， 因 此 ， 客 户 机 可 直接 发 送 Teredo 封装 的 分 组 到 其 他 客户 机 的 NAT。 
对 于 受 限 的 NAT，Teredo 使 用 气泡 来 打 孔 和 建立 UDP NAT 映射 ( 见 第 7 章 和 [REFC6081])。 

当 一 个 已 取得 资格 认证 的 客户 机 有 一 个 分 组 要 发 送 到 一 台 IPv6 主机 ( 即 一 台 没 使 用 
Teredo 地 址 的 主机 ) 时 ， 它 首先 判断 是 否 已 经 知道 一 个 负责 该 分 组 的 目的 地 的 Teredo 中 继 
器 。 如 果 知 道 ， 使 用 简单 封装 把 分 组 发 送出 去 。 如 果 不 知道 ， 客 户 机 格式 化 一 个 包含 大 随机 
数 (如 64 比特 ) 的 ICMPv6 回 显 报 文 ， 并 经 由 Teredo 服务 器 把 它 发 送 到 其 IPv6 目的 地 。 接 
收 主机 看 到 一 个 进入 的 IPv6 数据 报 ， 其 源 地 址 等 于 客户 机 的 Teredo 地 址 。 它 产生 一 个 回 显 
应 答 ， 路 由 到 最 近 的 Teredo 中 继 器 。 然 后 这 个 中 继 器 转发 回应 给 客户 机 。 接 收 客户 机 再 观察 
这 个 中 继 器 的 IPv4 地 址 ， 并 更 新 缓存 以 指明 后 续 的 目的 地 为 该 IPv6 主机 的 分 组 应 该 使 用 这 
个 刚 确定 下 来 的 中 继 器 。 

在 [RFC6081] 中 ，Teredo 可 以 支持 许多 扩展 选项 ， 它 们 中 的 一 些 有 助 于 支持 Teredo 对 
对 称 NAT 的 操作 。 这 些 扩 展 对 协议 特性 进行 了 改动 ， 包 括 以 下 方面 : 对 称 NAT 支持 (SNS), 
带 UPnP 的 对 称 NAT (UP)， 端 口 保留 对 称 NAT (PP)， 顺 序 端口 对 称 NAT (SP), 23% (HP), 
以 及 服务 器 负载 减免 (SLR) T UP 和 PP 两 个 扩展 都 依赖 于 SNS 扩展 以 外 ， 其 他 扩展 都 
可 以 独立 使 用 。 通 过 对 这 些 扩展 进行 各 种 组 合 ， 多 种 NAT 类 型 都 可 得 到 支持 ， 这 些 组 合 由 
一 个 表格 给 出 ( 见 [RFC6081] 的 第 3 节 )。 

为 了 实现 这 些 扩展 ， 一 个 或 多 个 追踪 符 可 能 会 出 现在 Teredo 消息 中 。 使 用 与 ICMPv6 
ND 选项 (图 8-41 ) 一 样 的 基本 格式 ， 追 踪 符 被 编码 成 一 个 有 序 的 TLV 组 合 列表 ， 这 种 格 
式 包 含 一 个 8 位 的 类 型 字段 和 一 个 8 位 的 长 度 字段 。 类 型 字段 的 最 高 序 的 两 个 位 编码 指明 
主机 不 能 识别 追踪 符 类 型 时 应 怎样 处 理 。 位 模式 01 表示 主机 应 丢弃 该 分 组 ; 所 有 其 他 的 
都 表示 未 知 的 追踪 符 应 被 忽略 ， 而 其 他 的 则 应 按 顺 序 处 理 。 追 踪 符 类 型 的 值 的 官方 列表 由 
IANA[TTYPES] 维护 。 当 前 被 定义 的 追踪 符 如 表 10-1 所 示 。 


表 10-1 Teredo 追踪 符 被 携带 在 封装 于 UDP/IPv4 数据 报 里 的 IPv6 负载 之 后 。 每 个 追踪 符 都 有 一 个 
类 型 值 、 名 称 和 对 应 的 诠释 。 某 些 情况 下 ， 长 度 值 是 一 个 常数 












32 位 的 随机 数 ， 用 于 防止 重 放 攻 
击 ( 见 第 18 章 ) 










SNS, UP, PP, SP, HP 
未 分 配 未 分 配 


随机 数 追 踪 符 包含 一 个 32 位 的 随机 值 ， 该 值 对 每 个 消息 都 是 唯一 的 。 它 是 一 种 安全 措 
施 ， 防 止 重 放 攻 击 ( 见 第 18 章 )， 且 与 HP 或 SNS AY (IPv4 地 址 ， 端 口 ) 对 一 起 使 用 。 每 个 
对 是 6 字 节 长 ， 随 机 数 追 踪 符 可 以 拥有 1 ~ 4 个 这 样 的 对 。 这 些 对 确定 了 一 些 UDP/IPv4 端 
点 一 一 在 一 个 NAT 的 同一 边 的 其 他 Teredo 客户 机 可 以 通过 这 些 端点 来 联系 发 送 方 ， 同 时 它 
们 可 与 HP 扩展 一 起 使 用 。 






位 于 同一 个 NAT 后 面 的 Teredo 
客户 机 使 用 的 额外 的 地 址 /端口 
允许 NAT 使 用 直接 气泡 ( 带 NS 
消息 ) 来 进行 更 新 
发 送 方 的 预测 映射 端口 
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ND 选项 追踪 符 包 含 一 个 字 节 ， 用 来 标识 TeredoDiscoverySolicitation (0x00 ) 或 Teredo- 
DiscoveryAdvertisement (0x01 ) 。 在 第 一 种 情况 下 ， 要 求 接收 方 用 一 个 包含 第 二 种 消息 
形式 的 直接 气泡 (比如 ， 在 Teredo 客户 机 之 间 直 接 发 送 ) 来 进行 应 答 。TeredoDiscovery- 
Advertisement 类 型 就 是 应 答 。 这 个 追踪 符 用 于 支持 SLR 扩展 ， 它 有 效 地 允许 NS/NA HE 
带 在 直接 气泡 里 ， 而 不 是 需要 服务 器 参与 的 间接 气泡 里 ， 以 更 新 NAT 状态 。 最 后 ， 随 机 端 
口 追踪 符 包含 一 个 16 位 的 UDP 端口 号 ， 这 个 端口 号 是 发 送 方 对 它 被 映射 的 端口 号 的 最 好 猜 
WE 这 被 PP 扩展 (IL [RFC6081] 的 6.3 节 ) 使 用 。 


10.6 UDP-Lite 


有 些 应 用 程序 可 以 容忍 在 发 送 和 接收 的 数据 里 引入 的 比特 差错 。 通 常 ， 为 了 避免 建立 
连接 的 开销 或 者 为 了 使 用 广播 或 组 播 地 址 ， 这 类 应 用 程序 会 选择 使 用 UDP， 但 是 UDP 使 
用 的 校 验 和 要 么 覆盖 整个 负载 ， 要 么 就 一 点 也 没有 (上 比如， 发 送 方 不 计算 校 验 和 )。 一 个 称 
为 UDP-Lite 或 UDPLite[RFC3828] 的 协议 通过 修改 传统 的 UDP 协议 ， 提 供 了 部 分 校 验 和 来 
解决 这 个 问题 。 这 些 校 验 和 只 覆盖 每 个 UDP 数据 报 里 的 一 部 分 负载 。UDP-Lite 有 它 自 己 的 
IPv4 协议 和 IPv6 下 一 个 头 部 字段 值 (136 )， 因 此 它 实 际 上 算是 一 种 独立 的 传输 协议 。UDP- 
Lite 用 一 个 校 验 和 和 覆盖 范围 (Checksum Coverage) 字段 取代 了 (TRAN) 长 度 字 段 来 修改 
UDP 头 部 (ILAI 10-8 ) 。 


0 1516 31 





源 端 口号 目的 端口 号 | 
ee} OFW) UDP-Lite 


I 
BRAE 校 验 和 (8 字 节 ) 
(2 字 节 ) (2 字 节 ) | 


图 10-8 UDP-Lite 包含 了 一 个 校 验 和 履 盖 范围 字段 ， 这 个 字段 给 出 被 校 验 和 覆盖 的 字 节 数 (从 UDP- 
Lite 头 部 的 第 1 个 字 节 开始 )。 最 小 值 是 0， 表示 整个 数据 报 都 被 覆盖 。 值 1 ~ 7 是 无 效 的 ， 
因为 头 部 总 是 要 被 覆盖 的 。UDP-Lite 使 用 一 个 与 UDP (17) 不 同 的 IPv4 协 议 号 (136 )。 
IPv6 在 下 一 个 头 部 字段 中 使 用 相同 的 值 


图 10-8 中 的 校 验 和 和 履 姜 范围 字段 是 被 校 验 和 覆盖 的 字 节 数 (从 UDP-Lite 头 部 的 第 1 个 
字 节 开始 )。 除 了 特殊 的 值 0 以 外 ， 最 小 值 是 8， 因 为 UDP-Lite 头 部 自身 总 是 要 求 被 校 验 和 
覆盖 的 。 值 0 表示 整个 负载 都 被 校 验 和 覆盖 ， 这 就 和 传统 UDP 一 样 了 。 这 里 存在 一 个 关于 
IPv6 超 长 数据 报 的 问题 ， 因 为 用 于 存放 校 验 和 履 盖 范围 字段 的 空间 有 限 。 对 于 这 类 数据 报 ， 
被 覆盖 数 最 多 可 以 是 64KB 或 整个 数据 报 ( 即 校 验 和 履 姜 范围 字段 的 值 为 0 )。 使 用 一 些 特 殊 
的 套 接 字 API 选项 为 应 用 程序 指明 使 用 UDP-Lite (IPPROTO_UDPLITE) 和 要 求 的 校 验 和 覆 











盖 范 围 的 数量 (使 用 setsockopt 的 SOL_ UDPLITE、UDPLITE SEND_ CSCOV 和 UDPLITE 


RECV_CSCOV 选项 )。 


10.7 IP 分 片 


正如 我 们 在 第 3 章 介绍 的 ， 链 路 层 通常 对 可 传输 的 每 个 帧 的 最 大 长 度 有 一 个 上 限 。 为 了 
保持 P 数据 报 抽 象 与 链 路 层 细 节 的 一 致 和 分 离 ，IP 引入 了 分 片 和 重组 。 当 IP 层 接收 到 一 个 
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要 发 送 的 耳 数 据 报 时 ， 它 会 判断 该 数据 报应 该 从 哪个 本 地 接口 发 送 〈 通 过 查找 一 个 转发 表 ， 
见 第 5 章 ) 以 及 要 求 的 MTU 是 多 少 。IP 比较 外 出 接口 的 MTU 和 数据 的 大 小 ， 如 果 数 据 报 
太 大 则 进行 分 片 。IPv4 中 的 分 片 可 以 在 原始 发 送 方 主机 和 端 到 端 路 径 上 的 任何 中 间 路 由 器 上 
进行 。 值 得 一 提 的 是 ， 数 据 报 分 片 自 身 也 可 被 分 片 。IPv6 中 的 分 片 有 些 不 一 样 ， 它 只 允许 源 
主机 进行 分 片 。 在 第 5 章 我 们 见 过 一 个 IPv6 分 片 的 例子 。 

当 一 个 人 P 数 据 报 被 分 片 了 ， 直 到 它 到 达 最 终 目 的 地 才 会 被 重组 。 对 此 有 两 个 原因 ， 第 
二 个 要 比 第 一 个 重要 。 第 一 个 原因 ， 在 网 络 中 不 进行 重组 要 比重 组 更 能 减轻 路 由 器 转发 软件 
(或 硬件 ) 的 负担 。 第 二 个 原因 ， 同 一 数据 报 的 不 同 分 片 可 能 经 由 不 同 的 路 径 到 达 相 同 的 目的 
地 。 如 果 发 生 这 种 情况 ， 路 径 上 的 路 由 器 通常 没有 能 力 来 重组 原始 的 数据 报 ， 因 为 它们 都 只 
能 看 到 所 有 分 片 的 一 个 子 集 。 考 虑 到 路 由 器 当前 的 性 能 级 别 ， 表 面 上 ， 第 一 个 原因 并 不 是 很 
令 人 信服 , 但 是 当 想 到 大 多 数 路 由 器 最 终 无 论 怎样 都 会 具备 终端 主机 一 样 的 功能 时 (如 ， 当 
它们 被 管理 或 配置 时 )， 这 就 更 不 能 令 人 信服 了 。 所 以 第 二 个 原因 仍然 是 主要 的 。 


10.7.1 例子 : UDP /IPv4 分 片 


使 用 UDP 的 应 用 程序 如 果 想 要 避 开 了 P 层 分 片 ， 可 能 就 得 琢磨 它 生 成 的 结果 IP 数据 报 
的 大 小 了 。 特 别 是 ， 如 果 结 果 数 据 报 的 大 小 超过 链 路 的 MTU， 那 么 IP 数据 报 就 要 被 分 割 成 
ZB IP 4A, 这 有 可 能 导致 性 能 问题 ， 因 为 如 果 任 何 一 个 分 片 丢 失 了 ， 整 个 数据 报 就 丢失 
了 。 图 10-9 描述 了 一 个 3023 字 节 的 UDP/IPv4 数据 报 被 分 割 成 多 个 IPv4 分 组 的 情况 。 


IPv4 数 据 报 


第 一 个 分 片 
IPv4 | UDP 
x 5 UDP 数据 总 长 度 = 1500 














yae P IPH ( 1480 字 节 ) 一 一 > 
pa 第 二 个 分 片 
头 部 UDP 数 据 总 长 度 =1500 
偏 移 = 185 l 
MF=1 
D 最 后 一 个 分 片 
sy 
仿 移 =370 =a 原始 IPv4 数 据 报 总 长 度 
MESO ry 20 + 8 + 2992 = 3020 字 节 


图 10-9 一 个 带 有 2992 字 节 UDP 负载 的 UDP 数据 报 被 分 片 成 三 个 UDP/IPv4 分 组 (没有 选项 )。 包 含 
源 和 目的 端口 号 的 UDP 头 部 只 出 现在 第 一 个 分 片 里 《对 防火 墙 和 NAT 来 说 ， 这 是 一 个 复杂 
因素 )。 分 片 由 IPv4 头 部 中 的 标识 (Identification)、 分 片 偏 移 (Fragment Offset) 和 更 多 分 片 
(More Fragments, MF) 字段 控制 


在 图 10-9 中 ， 我 们 看 到 原始 UDP 数据 报 包 含 了 2992 字 节 的 应 用 程序 数据 (UDP 负载) 
和 8 字 节 的 UDP 头 部 ， 结 果 产 生 一 个 总 长 度 (Total Length) 字段 值 为 3020 字 节 的 IPv4 数 
据 报 (回想 一 下 ， 这 个 大 小 也 包含 了 一 个 20 字 节 的 IPv4 头 部 )。 当 这 个 数据 报 被 分 片 成 三 个 
分 组 时 ， 产 生 40 个 额外 字 节 (每 个 新 生成 的 IPv4 分 片头 部 20 字 节 )。 因 此 ， 总 发 送 的 字 节 
数 是 3060， 增 加 的 IPv4 开销 大 概 是 1.3%。 标 识字 段 的 值 (由 原始 发 送 方 设置 ) 被 复制 到 每 
个 分 片 ， 同 时 当 分 片 到 达 目 的 地 时 利用 它 来 分 成 组 。 分 片 偏 移 字段 给 出 该 分 片 负载 字 节 中 的 
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第 一 个 字 节 在 原始 IPv4 数据 中 的 偏 移 量 (以 8 字 节 为 单位 )。 很 明显 ， 第 一 个 分 片 的 偏 移 总 
是 0。 这 里 ， 我 们 看 到 第 二 个 分 片 的 偏 移 是 185 ( 185*8 = 1480). 1480 是 第 一 个 分 片 的 大 
小 减 去 IPv4 头 部 的 大 小 。 类 似 的 分 析 可 应 用 在 第 三 个 分 片上 。 最 后 ，MF 位 字段 指明 该 数据 
报 后 面 是 否 还 有 更 多 的 分 组 ， 只 有 最 后 一 个 分 片 才 应 置 成 0。 当 MF = 0 的 分 片 被 接收 到 时 ， 
重组 程序 才能 确定 原始 数据 报 的 长 度 ， 它 等 于 分 片 偏 移 字段 的 值 ( 乘 以 8 ) 加 上 IPv4 总 长 度 
字段 的 值 ( 减 去 IPv4 头 部 长 度 )。 因 为 每 个 偏 移 字段 都 是 相对 原始 数据 报 的 ， 重 组 进程 可 以 
处 骂 非 顺序 到 达 的 分 片 。 当 一 个 数据 报 被 分 片 后 ， 每 个 IPv4 头 部 中 的 总 长 度 字段 要 被 修改 
成 该 分 片 的 总 长 度 。 

尽管 了 P 分 片 看 起 来 是 透明 的 ,但 是 一 个 刚才 提 到 过 的 特征 使 得 它 不 太 理 想 : 如 果 任 何 
一 个 分 片 丢 失 了 ， 整 个 数据 报 就 丢失 了 。 要 理解 为 什么 会 这 样 ， 我 们 知道 IP 自身 没有 差错 
纠正 机 制 。 像 超时 和 重 传 这 些 机 制 是 更 高 层 的 责任 。(TCP 有 超时 和 重 传 操作 ，UDP 则 没有 。 
一 些 基于 UDP 的 应 用 程序 自己 实现 超时 和 重 传 ， 但 这 在 UDP 之 上 的 某 层 进行 。) 当 TCP {R 
文 段 的 一 个 分 片 丢失 了 ，TCP 会 重 传 整个 TCP 报 文 段 ， 这 涉及 整个 IP 数据 报 。 只 重 发 数据 
报 的 一 个 分 片 是 不 可 能 的 。 确 实 ， 如 果 分 片 由 中 间 的 路 由 器 来 做 ， 而 不 是 原始 系统 ， 那 么 原 
始 系统 就 又 不 知道 数据 报 是 怎样 被 分 片 的 了 。 如 此 看 来 ， 通 常 是 要 避免 分 片 的 。[KM87] 提 
出 了 避免 分 片 的 一 些 讨论 。 

使 用 UDP， 产 生 IP 分 片 是 很 简单 的 。( 后 面 我 们 将 会 看 到 TCP 尽量 避免 分 片 ， 一 个 应 
用 程序 强迫 TCP 发 送 比 要 求 的 分 片 要 大 得 多 的 报 文 段 几乎 是 不 可 能 的 。) 我 们 可 以 使 用 sock 
程序 增加 数据 报 的 大 小 ， 直 到 分 片 出 现 。 在 一 个 以 太 网 里 ， 一 帧 的 数据 最 大 大 小 一 般 是 1500 
字 节 ( 见 第 3 章 )， 假 设 IPv4 头 部 是 20 字 节 ，UDP 头 部 是 8 字 节 ”， 这 就 使 得 最 大 1472 F 
节 的 应 用 程序 数据 可 避免 分 片 。 我 们 将 以 数据 大 小 1471、1472、1473 及 1474 字 节 来 运行 
sock 程序 。 我 们 预想 到 最 后 两 个 会 产生 分 片 : 


Linux% sock -u -i -n1 -w1471 10.0.0.3 discard 
Linux% sock -u -i -n1 -wli472 10.0.0.3 discard 
Linux? sock -u -i -n1 -wl473 10.0.0.3 discard 
Linux% sock -u -i -n1 -wi474 10.0.0.3 discard 


清单 10-3 显示 了 tcpdump 输出 (为 了 简洁 ， 某 些 行 已 被 整理 )。 


清单 10-3 MTU 为 1500 字 节 的 以 太 网 链 路 上 的 UDP 分 片 

1 23:42:43.562452 10.0.0.5.46530 > 10.0.0.3.9: 

udp 1471 (DF) (ttl 64, id 61350, len 1499) 
2 23:42:50.267424 10.0.0.5.46531 > 10.0.0.3.9: 

udp 1472 (DF) (ttl 64, id 62020, len 1500) 
3 23:42:57.814555 10.0.0.5 > 10.0.0.3: 

udp (frag 37671:1@1480) (ttl 64, len 21) 
4 23:42:57.814715 10.0.0.5.46532 > 10.0.0.3.9: 

udp 1473 (frag 37671:1480@0+) (ttl 64, len 1500) 
5 23:43:04.368677 10.0.0.5 > 10.0.0.3: 

udp (frag 37672:2@1480) (ttl 64, len 22) 
6 23:43:04.368838 10.0.0.5.46535 > 10.0.0.3.9: 

udp 1474 (frag 37672:1480@0+) (ttl 64, len 1500) 


前 两 个 UDP 数据 报 (分 组 1 和 2) 适合 以 太 网 帧 (使 用 典型 的 “DIX” 或 “Ethernet” 
封装 ) 且 没 被 分 片 。 第 三 种 情况 ， 对 应 于 应 用 程序 写 入 的 1473 字 节 的 IPv4 数据 报 的 长 度 是 


O 回想 一 下 ， 这 个 假设 没有 使 用 选项 。 对 于 带 选项 的 IPv4 数据 报 ， 头 部 超过 20 字 节 ， 最 大 可 到 60 字 节 。 
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1501， 这 必须 进行 分 片 (分 组 3 和 4 )。 类 似 地 ， 写 人 1474 字 节 产生 的 数据 报 长 度 是 1502 字 
节 ， 同 样 也 要 分 片 (分 组 5 和 6 )。 

当 捕 获 到 一 个 分 片 数据 报时 ,tcpdump 打印 了 一 些 附 加 信息 。 首 先 ， 输 出 frag 37671 (分 
组 3 和 4) 和 frag 37672 (分 组 5 和 6) 指明 了 IPv4 头 部 中 的 标识 字段 。 分 片 信 息 的 下 一 个 
数字 (在 分 组 4 和 6 中 的 冒号 和 @ 字符 之 间 ) 是 IPv4 分 组 大 小 ， 不 包括 IPv4 头 部 。 两 个 数 
据 报 的 第 一 个 分 片 都 包含 了 1480 字 节 的 数据 : 8 字 节 的 UDP 头 部 和 1472 字 节 的 用 户 数据 。 
(20 字 节 不 带 选项 的 IPv4 头 部 使 得 分 组 恰好 是 1500 字 节 。) 第 一 个 被 分 片 的 数据 报 的 第 二 个 
分 片 (分 组 3 ) 包含 1 字 节 的 数据 (用 户 数据 剩 下 的 1 个 字 节 )。 第 二 个 被 分 片 的 数据 报 的 第 
二 个 分 片 (分 组 5 ) 包含 用 户 数据 剩 下 的 2 个 字 节 。 分 片 要 求 除 了 最 后 一 个 分 片 之 外 的 所 有 
分 片 的 数据 部 分 ( 即 ， 除 IPv4 头 部 外 的 所 有 东西 ) 应 是 8 字 节 的 倍数 。 本 例 中 ，1480 就 是 8 
的 倍数 。( 相 比 于 第 5 章 的 IPv6 分 片 例子 ,那里 1500 字 节 的 以 太 网 MTU 不 能 被 充分 利用 。) 

跟随 在 @ 字符 后 的 数字 是 指 该 分 片 的 数据 相对 原始 数据 报 开 头 的 偏 移 量 。 每 个 新 的 被 
分 片 的 数据 报 的 第 一 个 分 片 都 是 以 偏 移 0 开始 的 (分 组 4 和 6 )， 两 个 数据 报 的 第 二 个 分 片 都 
是 从 偏 移 1480 字 节 开始 (分 组 3 和 5 )。 偏 移 量 后 的 “ +” 字符 代表 还 有 组 成 这 个 数据 报 的 
分 片 ， 对 应 IPv4 头 部 里 的 3 位 的 标志 字段 里 的 MF 位 字段 被 置 成 1。 

一 个 令 人 意外 的 现象 是 : 有 更 大 偏 移 量 的 分 片 要 比 第 一 个 分 片 优先 投递 。 事 实 上 ， 发 
送 方 故 意 对 这 些 分 片 进行 了 重新 排序 。 经 过 思考 ,我们 认为 这 样 做 是 有 好 处 的 。 如 果 最 后 一 
个 分 片 先 被 投递 ， 接 收 主机 就 可 以 确定 所 需 的 缓存 空间 的 最 大 值 ， 以 重组 整个 数据 报 。 考 
虑 到 反正 重组 进程 重新 排序 是 鲁 棒 的 ， 这 就 不 是 什么 问题 了 。 另 一 方面 ， 有 些 技 术 要 利用 
更 高 层 的 信息 ， 这 些 信息 从 第 一 个 分 片 可 得 到 (包含 UDP 端口 号 )， 而 后 面 的 分 片 都 没有 
[KEWG96]. 

最 后 ， 注 意 到 分 组 3 和 5 ( 非 第 一 个 分 片 ) 遗漏 了 源 和 目的 UDP 端口 号 。tcpdump 为 了 
能 打印 除了 第 一 个 分 片 外 的 分 片 的 端口 号 ， 它 不 得 不 重组 被 分 片 的 数据 报 以 恢复 只 出 现在 第 
一 个 分 片 (该 分 片 没 有 遗漏 源 和 目的 端口 号 ) 的 UDP 头 部 中 的 端口 号 。 


10.7.2 重组 超时 


一 个 数据 报 的 任何 一 个 分 片 首先 到 达 时 ，IP 层 就 得 启动 一 个 计时 器 。 如 果 不 这 样 做 的 
话 ， 不 能 到 达 的 分 片 (如 清单 10-4 中 所 见 ) 可 能 会 最 终 导致 接收 方 用 尽 缓存 ， 留 下 一 种 攻击 
机 会 。 清 单 中 的 例子 由 一 个 特殊 程序 产生 ， 该 程序 构造 一 个 ICMPv4 回 显 请 求 报 文 ， 并 且 以 
一 定 延迟 只 发 送 这 个 消息 的 前 面 两 个 分 片 ， 然 后 不 再 发 送 任何 其 他 分 片 。 清 单 10-4 显示 了 
回复 (为 了 简洁 ， 某 些 行 已 被 整理 )。 


清单 10-4 1Pv4 分 片 重组 超时 
1 17:35:59.609387 10.0.0.5 > 10.0.0.3: 
icmp: echo request (frag 28519:380@0+) (ttl 255, len 400) 
2 17236219.617272 10.0.0.5 > 10.0.0.3: 
icmp (frag 28519:380@376+) (ttl 255, len 400) 
3 17:36:29.602373 10.0.0.3 > 10.0.0.5: 
icmp: ip reassembly time exceeded for 10.0.0.5 > 10.0.0.3: 
icmp: echo request (frag 28519:380@0+) (ttl 255, len 400) 
[tos OxcO](ttl 64, id 38816, len 424) 


这 里 我 们 看 到 第 一 个 分 片 ( 的 时 间 和 序列 空间 ) 被 发 送 ， 总 长 度 是 400。 第 二 个 分 片 20s 
后 被 发 送 ， 但 最 后 一 个 分 片 一 直 没 被 发 送 。 接 收 到 第 一 个 分 片 30s 后 ， 目 标 机 器 回复 一 个 
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ICMPv4 超时 (代码 1 ) 消息 ， 告 诉 发 送 方 数据 报 已 丢失 ,包括 第 一 个 分 片 的 拷贝 。 一 般 的 
超时 时 间 是 30s 或 60s。 正 如 我 们 所 见 ， 收 到 任何 一 个 分 片 时 计时 器 就 开始 计时 ， 且 收 到 新 
的 分 片 也 不 会 被 重 置 。 因 此 ， 计 时 器 给 出 了 同一 数据 报 分 片 之 间 可 被 分 隔 的 最 大 间隔 时 间 的 
限度 。 


注意 ”历史 上 ， 大 多 数 衍生 自 Berkeley-Unix 4 IP 实现 方案 从 不 产生 这 个 错误 。 然 

e 而 这 些 实现 确实 用 了 计时 器 ， 也 确实 在 计时 器 超时 的 时 候 丢弃 了 所 有 分 片 ， 但 是 却 
从 不 产生 ICMP 错误 。 有 时 会 碰 到 另 一 个 细节 : 除非 接收 到 了 第 一 个 分 片 【 比 如 分 
片 偏 移 字段 为 0 的 分 片 )， 否则 没 必 要 产生 ICMP 错误 。 原 因 是 这 些 ICMP 错误 的 
接收 者 会 因 传 输 层 头 部 不 可 用 而 无 法 知道 哪个 用 户 进 程 发 送 的 数据 报 丢 弃 了 。 假 设 
更 高 层 协 议 最 终 将 会 超时 ， 并 在 必要 时 重 传 它 。 


10.8 采用 UDP 的 路 径 MTU 发 现 


让 我 们 考察 使 用 UDP 的 应 用 程序 与 路 径 MTU 发 现 机 制 (PMTUD) 之 间 的 交互 过 程 
[RFC1191]。 对 一 个 像 UDP 这 样 的 协议 来 说 ,调用 这 样 协 议 的 应 用 程序 一 般 只 控制 输出 数 
据 报 的 大 小 ， 如 果 有 方法 能 确定 一 个 可 以 避免 分 片 的 合适 的 数据 报 大 小 ， 那 么 这 会 是 很 有 
用 的 。 传 统 的 PMTUD 使 用 ICMP PTB 消息 ( 见 第 8 BE) 来 获得 一 个 最 大 分 组 大 小 ， 其 沿 着 
一 条 路 由 路 径 传输 不 会 引入 分 片 。 典 型 地 ， 这 些 消 息 在 UDP 层 之 下 被 处 理 ， 对 应 用 程序 不 
可 见 ， 因 此 ， 它 们 要 么 是 一 个 API 调用 ， 被 应 用 程序 用 于 获取 对 路 径 (与 每 个 路 径 的 目的 地 
都 已 通信 过 ) 的 MTU 大 小 的 当前 最 好 的 估计 ， 要 么 是 不 被 应 用 程序 所 知 的 、 能 独立 地 进行 
PMTUD 的 IP Jz. IP 层 经 常 基于 每 个 目的 地 址 缓存 一 个 PMTUD 信息 ， 并 且 当 没有 更 新 时 就 
让 它 超时 。 


10.8.1 例子 


在 下 面 的 例子 里 ， 我 们 使 用 sock 程序 来 建立 一 个 UDP 数据 报 ， 产 生 一 个 1501 字 节 的 
IPv4 数据 报 。 无 论 我 们 的 主机 系统 还 是 连接 的 LAN 都 支持 一 个 大 于 1500 字 节 的 MTU， 但 
是 路 由 器 上 到 互联 网 的 出 口 链 路 则 不 然 。 以 下 命令 试图 不 间断 地 发 送 三 个 UDP 消息 到 echo 
服务 (UDP 端口 为 7 )。 


Linux% sock -u -i -n 3 -w1473 www.cs.berkeley.edu echo 


清单 10-5 显示 了 我 们 在 发 送 方 使 用 tcpdump 看 到 的 相应 分 组 追踪 (为 了 简洁 ， 某 些 行 已 
被 整理 )。 


清单 10-5 tcpdump 输出 ， 显 示 了 ICMP PTB 消息 。 建 议 的 MTU 包括 在 内 
1 14:42:18.359366 IP (tos 0x0, ttl 64, id 18331, offset 0, flags [DF], 
proto UDP (17), length 1501) 
12.46.129.28.33954 > 128.32.244.172.7: UDP, length 1473 


2 14:42:18.359384 IP (tos 0x0, ttl 64, id 18332, offset 0, flags [DF], 
proto UDP (17), length 1501) 
12.46.129.28.33954 > 128.32.244.172.7: UDP, length 1473 


3 14:42:18.359402 IP (tos 0x0, ttl 64, id 18333, offset 0, flags [DF], 
proto UDP (17), length 1501) 
12.46.129.28.33954 > 128.32.244.172.7: UDP, length 1473 
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4 14:42:18.360156 IP (tos 0x0, ttl 255, id 23457, offset 0, 
flags [none], proto ICMP (1), length 56) 
12.46.129.1 > 12.46.129.28: ICMP 
493 128.32.244.172 unreachable - need to frag (mtu 1500), length 36 
IP (tos 0x0, ttl 63, id 18331, offset 0, flags [DF], 
proto UDP (17), length 1501) 
12.46.129.28.33954 > 128.32.244.172.7: UDP, length 1473 


从 清单 10-5 我 们 可 以 看 到 三 个 UDP 数据 报 ， 每 个 都 带 有 1473 字 节 的 UDP (应 用 程 
FR) 负载 。 每 个 都 产生 一 个 1501 F (未 分 片 ) 的 IPv4 数据 报 。 每 个 数据 报 的 IPv4 DF 位 
字段 都 是 开启 的 (本 系统 的 默认 值 )， 因 此 当 它 们 中 的 一 个 到 达 一 个 路 由 器 时 (IPv4 地 址 
12.46.129.1 )， 就 会 有 一 条 ICMPv4 PTB 消息 产生 ， 该 消息 包含 建议 的 下 一 跳 1500 字 节 的 
MTU。 我 们 还 可 以 观察 到 产生 的 ICMPv4 消息 包含 了 被 丢弃 的 (“违规 ”) 数据 报 的 UDP/ 
IPv4 头 部 (及 最 前 面 的 8 个 数据 字 节 )。 在 这 个 例子 里 ， 我 们 的 sock 程序 发 送 它 的 数据 报 太 
快 (小 于 1ms)， 以 至 于 在 任何 ICMP 消息 被 返回 和 处 理 前 ， 它 就 完成 了 运行 。 


注意 现在 在 互联 网 服务 提供 商 (ISP) 中 ，1500 字 节 的 MTU 是 它们 通用 的 最 小 
MTU。 有 些 ISP 引入 了 可 支持 地 址 分 配 和 管理 的 PPPOE， 它 们 使 用 更 小 的 1492 F 
节 MTU. PPPoE 头 部 ( 见 第 3 章 ) 由 6 字 节 和 随后 的 2 字 节 了 PPP 头 部 组 成 ， 剩 下 
1500 - 6 - 2 = 1492 字 节 用 于 封装 数据 报 。 


如 果 我 们 使 用 另外 一 台 目 标 主机 (一 台 我 们 没有 路 径 MTU 历史 的 主机 )， 同 时 在 多 次 写 
和 信之 间 加 入 额外 的 延迟 ， 我 们 可 以 观察 到 不 同 的 行为 。 使 用 带 -p 2 选项 的 sock 命令 ， 这 样 
在 每 次 发 送 之 间 加 入 了 2 秒 延 迟 ， 我 们 使 用 以 下 的 两 条 〈 相 同 的 ) 命令 : 


Linux% sock -u -i -n 3 -wl473 -p 2 www.wisc.edu echo 
write returned -1, expected 1473: Message too long 
Linux% sock -u -i -n 3 -wl473 -p 2 www.wisc.edu echo 


使 用 另 一 个 版 本 的 tcpdump， 关 于 这 些 命令 的 tcpdump 输出 由 清单 10-6 给 出 (为 了 简 
洁 ， 某 些 行 已 被 整理 )。 


清单 10-6 ”关于 3000 字 节 MTU 链 路 过 渡 到 1500 字 节 路 径 MTU 的 成 功 的 路 径 MTU 发 现 示 意 
1 17:22:16.331023 IP (tos 0x0, ttl 64, id 58648, offset 0, flags [DF], 
proto: UDP (17), length: 1501) 
12.46.129.28.33955 > 144.92.9.185.7: UDP, length 1473 


2 17:22:16.331581 IP (tos 0x0, ttl 255, id 38518, offset 0, 
flags [none], proto: ICMP (1), length: 56) 
12.46.129.1 > 12.46.129.28: ICMP 
494 144.92.9.185 unreachable - need to frag (mtu 1500), length 36 


IP (tos 0x0, ttl 63, id 58648, offset 0, flags [DF], 
proto: UDP (17), length: 1501) 
12.46.129.28.33955 > 144.92.9.185.7: UDP, length 1473 


3 17:22:24.284866 IP (tos 0x0, ttl 64, id 53776, offset 0, flags [+], 
proto: UDP (17), length: 1500) 
12.46.129.28.33955 > 144.92.9.185.7: UDP, length 1473 


4 17:22:24.284873 IP (tos 0x0, ttl 64, id 53776, offset 1480, 
flags [none], proto: UDP (17), length: 21) 
12.46.129.28 > 144.92.9.185: udp 
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5 17:22:26.293554 IP (tos 0x0, ttl 64, id 53777, offset 0, flags [+], 
proto: UDP (17), length: 1500) 
12.46.129.28.33955 > 144.92.9.185.7: UDP, length 1473 


6 17:22:26.293559 IP (tos 0x0, ttl 64, id 53777, offset 1480, 
flags [none], proto: UDP (17), length: 21) 
12.46.129.28 > 144.92.9.185: udp 


7 17:22:28.301469 IP (tos 0x0, ttl 64, id 53778, offset 0, flags [+], 
T proto: UDP (17), length: 1500) 
12.46.129.28.33955 > 144.92.9.185.7: UDP, length 1473 


8 17:22:28.301474 IP (tos 0x0, ttl 64, id 53778, offset 1480, 
flags [none], proto: UDP (17), length: 21) 
12.46.129.28 > 144.92.9.185: udp 


从 清单 10-6 可 以 看 到 ， 第 一 次 运行 我 们 的 程序 时 ， 由 于 ICMPv4 PTB 消息 ， 程 序 返 回 
了 一 个 错误 。 程 序 和 运行 一 次 的 两 次 发 送 之 间 的 额外 时 间 和 两 次 程序 运行 之 间 的 额外 时 间 让 
PTB 消息 有 机 会 到 达 发 送 主 机 ， 也 让 错误 环境 能 传 回 给 发 送 方 去 处 理 。 有 趣 的 是 ， 当 我 们 
第 二 次 运行 程序 ， 路 径 MTU 已 经 被 发 现 ， 为 1500 字 节 ， 系 统 能 够 使 用 分 片 来 发 送 程序 的 
三 个 数据 报 (分 组 3、5、7 是 这 三 个 数据 报 的 第 一 个 分 片 )。15 分 钟 后 (这 里 没 显示 )， 路 径 
MTU 信息 被 认为 是 过 时 的 ， 数 据 报 没 被 分 片 发 送 ， 另 一 条 ICMPv4 PTB 消息 被 返回 ， 以 此 
重复 。 


注意 [RFC1191] 推荐 一 个 由 PMTUD 得 到 的 PMTU 值 在 10 分 钟 后 过 时 。 路 
径 MTU 发 现 有 时 会 因为 防火 墙 和 网 关 过 滤 可 能 不 加 选择 地 丢弃 ICMP 流量 而 
出 现 问 题 ， 这 会 损害 PMTU 发 现 算法 。 因 为 这 点 ， 从 基于 系统 范畴 或 有 更 好 保 
证 来 看 ， 可 能 要 关闭 PMTU ŽI, Æ Linux P, X 4} /proc/sys/net/ipv4/ip_no_ 
pmtu_disc 可 以 置 成 1 以 关闭 PMTU 发 现 。 在 Windows 中 ， 可 以 编辑 注册 表 入 口 
HKEY LOCAL MACHINE\System\CurrentControlSet\Services\Tcpip\Parameters\ 
EnablePMTUDiscovery 的 值 为 0。 一 个 不 使 用 ICMP 的 、 传 统 PMTUD 的 替代 品 已 
经 被 开发 出 来 [RFC4821]， 我 们 将 在 第 15 章 介 绍 它 。 


10.9 IP 分 片 和 ARP/ND 之 间 的 交互 


使 用 UDP， 我 们 可 以 看 到 诱导 的 I 了 P 分 片 和 典型 的 ARP 实现 之 间 的 关系 。 回 想 一 下 ， 
ARP 是 用 于 将 IP 层 地 址 映射 到 同一 个 IPv4 子 网 里 ( 见 第 4 章 ) 的 相应 的 MAC 层 地 址 。 我 
们 关心 的 问题 包括 ， 什 么 时 候 发 送 多 个 分 片 ? 应 该 产生 多 少 条 ARP 消息 ? 以 及 搁置 中 的 
ARP 请 求 /应 答 在 完成 之 前 会 有 多 少 个 分 片 要 处 理 ? (IPv6 ND 也 有 类 似 的 问题 。) 我 们 用 以 
下 两 条 命令 来 查看 答案 ,使 用 1500 字 节 MTU 返回 到 我 们 的 主机 和 LAN: 


Linux% sock -u -i -n1 -w8192 10.0.0.20 echo 
Linux% sock -u -i -n1 -w8192 10.0.0.3 echo 


这 些 参 数 使 得 我 们 的 sock 程序 产生 了 一 个 带 有 8192 字 节 用 户 数据 的 UDP 数据 报 。 在 
一 个 使 用 1500 字 节 MTU 大 小 的 以 太 网 中 ， 我 们 料想 到 这 将 会 产生 6 个 分 片 。 我 们 还 确保 了 
在 运行 这 个 程序 之 前 ARP 缓存 是 空 的 ， 所 以 在 任何 分 片 被 发 送 之 前 ， 肯定 会 互相 发 送 一 个 
ARP 请 求 和 应 答 ( 见 清单 10-7。 为 了 简洁 ， 某 些 行 已 被 整理 )。 
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清单 10-7 1500 $745 MTU 以 太 网 上 的 ARP 和 分 片 


1 15:45:49.063561 arp who-has 10.0.0.20 tell 10.0.0.5 
2 15:45:50.059523 arp who-has 10.0.0.20 tell 10.0.0.5 
3 15:45:51.059505 arp who-has 10.0.0.20 tell 10.0.0.5 


4 15:46:08.555725 arp who-has 10.0.0.3 tell 10.0.0.5 
5 15:46:08.555973 arp reply 10.0.0.3 is-at 0:0:c0:c2:9b:26 
6 15:46:08.555992 10.0.0.5 > 10.0.0.3: 
udp (frag 27358:1480@2960+) (ttl 64, len 1500) 
7 15:46:08.555998 10.0.0.5 > 10.0.0.3: 
udp (frag 27358:1480@1480+) (ttl 64, len 1500) 
8 15:46:08.556004 10.0.0.5.32808 > 10.0.0.3.7: 
udp 8192 (frag 27358:1480@0+) (ttl 64, len 1500) 


在 这 个 实验 里 ， 我 们 正好 知道 地 址 10.0.0.20 没有 分 配给 一 台 运 行 中 的 主机 ， 因 此 我 们 
应 该 收 不 到 应 答 。 在 清单 10-7 的 第 一 部 分 (分 组 1 ~ 3 )， 我 们 观察 到 三 个 ARP 请 求 被 将 近 
1s 的 时 间 分 开 。 三 个 请 求 被 发 送 后 ， 没 有 主机 应 答 ， 因 此 ARP 请 求 者 放弃 了 。 下 一 种 情况 ， 
大 概 250hs 后 有 一 个 ARP 应 答 被 接收 到 ， 同 时 大 约 20hs 后 一 个 分 片 被 发 送 。 在 这 之 后 ， 剩 
下 的 分 片 紧 挨 着 一 起 被 发 送出 去 ， 每 个 之 间 大 约 有 6hs 的 间隔 。 回 想 一 下 ， 在 这 个 系统 里 
(Linux)， 最 后 一 个 分 片 首 先 被 发 送 。 


注意 ”历史 上 ， 分 片 和 ARP 之 间 的 交互 一 直 都 是 有 问题 的 。 例 如 ， 在 某 些 情况 下 
每 一 个 分 片 都 得 发 送 一 个 ARP 请 求 ， 而 在 某 些 情况 下 只 有 分 片 中 的 一 个 要 排队 
等 候 ARP 应 答 (从 而 使 数据 报 丢失 了 ， 因 为 除了 一 个 分 片 外 的 所 有 分 片 都 被 丢弃 
了 )。 第 一 个 问题 在 [RFC1122] 里 被 解决 了 ， 那 需要 一 种 实现 来 阻止 这 种 ARP 洪 
泛 。 建 议 的 最 大 速率 是 每 秒 一 个 。 第 二 个 问题 也 在 [RFC1122] 里 被 讨论 ， 但 它 只 
指出 ， 对 每 一 个 分 组 集 ， 其 中 的 分 组 的 目的 地 是 相同 的 未 解析 的 IP 地 址 ， 链 路 层 
“应 该 保存 (而 不 是 丢弃 ) 其 中 的 至 少 一 个 (最 新 的 ) 分 组 ”。 这 种 方法 会 引起 不 必 
要 的 分 组 丢失 ， 不 过 已 经 在 具体 实现 里 解决 了 ， 方法 是 给 那些 ARP 请 求 还 在 挂 起 
的 分 组 提供 一 个 更 大 的 队列 。 


10.10 最 大 UDP 数据 报 长 度 


理论 上 ,一 个 IPv4 数据 报 的 最 大 长 度 是 65 535 字 节 ， 这 由 IPv4 头 部 的 16 位 总 长 度 字 
段 决定 ( 见 第 5 章 )。 除 去 20 字 节 不 带 选 项 的 IPv4 头 部 和 一 个 8 字 节 的 UDP 头 部 ， 就 剩 下 
最 大 65 507 字 节 留 给 一 个 UDP 数据 报 的 用 户 数 据 。 对 于 IPv6， 假 设 没 使 用 超 长 数据 报 ，16 
位 负载 长 度 字段 可 允许 655 527 字 节 的 有 效 UDP 负载 ( 65 535 字 节 的 IPv6 负载 中 的 8 字 节 
被 用 于 UDP 头 部 )。 然 而 ， 有 两 个 原因 使 得 这 些 大 小 的 满 额 数据 报 不 能 被 端 到 端 投递 。 第 
一 ， 系 统 的 本 地 协议 实现 可 能 有 一 些 限制 。 第 二 ， 接 收 应 用 程序 可 能 没准 备 好 去 处 理 这 么 大 
的 数据 报 。 


10.10.1 实现 限制 

协议 实现 给 应 用 程序 提供 一 个 API 以 让 它 选 择 一 些 默 认 缓存 大 小 来 进行 发 送 和 接收 。 某 
些 实现 提供 的 默认 值 小 于 最 大 IP 数据 报 大 小 ， 实 际 上 有 些 还 不 支持 发 送 大 于 几 十 KB 的 数据 
报 〈 尽 管 这 个 问题 不 多 见 )。 

API 套 接 字 [UNP3] 提供 一 组 函数 让 应 用 程序 能 够 调用 以 设置 或 查询 接收 和 发 送 缓存 的 
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大 小 。 对 于 一 个 UDP 套 接 字 ， 这 个 大 小 与 应 用 程序 可 读 或 可 写 的 最 大 UDP 数据 报 大 小 直接 
关联 。 典 型 的 默认 值 是 8192 字 节 或 65 535 字 节 ， 但 一 般 可 以 调用 setsocketopt() API 来 设置 
更 大 的 值 。 

在 第 5 章 我 们 提 到 过 一 台 主 机 重组 分 片 时 要 提供 足够 的 缓存 来 接收 至 少 一 个 576 字 节 的 
IPv4 数据 报 。 许 多 UDP 应 用 程序 被 设计 成 限制 数据 报 的 大 小 在 512 字 节 或 更 小 以 下 (这 使 
得 IPv4 数据 报 小 于 576 字 节 )。 对 UDP 数据 报 的 大 小 使 用 了 这 些 限 制 的 例子 包括 DNS ( 见 
第 11 章 ) 和 DHCP ( 见 第 6 章 )。 


10.10.2 ”数据 报 截断 


UDP/P 能 发 送 和 接收 一 个 给 定 大 小 的 (大 ) 数据 报 并 不 意味 着 接收 应 用 程序 就 能 够 读 取 
这 种 大 小 的 数据 报 。UDP 编程 接口 允许 应 用 程序 指定 每 次 一 个 网 络 的 读 操作 完成 时 返回 的 最 
大 字 节 数 。 如 果 接 收 的 数据 报 超 过 这 个 指定 大 小 会 发 生 什么 ? 

大 多 数 情况 下 ， 这 个 问题 的 答案 是 API 截断 (truncate) BEI, BFK ATR EE 
过 接收 应 用 程序 指定 字 节 数 的 任何 超额 数据 。 然 而 ， 每 种 实现 的 具体 操作 是 不 同 的 。 一 些 系 
统 把 这 些 数 据 报 的 超额 数据 放 到 后 续 的 读 操 作 中 ， 另 一 些 则 通知 调用 者 有 多 少数 据 被 截断 了 
(或 有 些 情 况 是 通知 有 一 些 数据 被 截断 但 不 知 具体 是 多 少 )。 


注意 # Linux ?, MSG TRUNC 选项 可 被 套 接 字 API 用 来 查看 有 多 少数 据 被 截 

o Æ HP-UX Ł, MSG_TRUNC 却 是 一 个 标志 ， 当 一 个 读 操 作 返 回 “ 有 数据 被 截 
断 时 ”就 进行 设置 。SVR4 (包括 Solaris 2.x) 的 套 接 字 API 不 会 截断 数据 报 。 任 何 
超额 的 数据 都 被 返回 给 后 续 的 读 操作 。 对 一 个 UDP 数据 报 进行 的 多 次 读 操作 是 不 
会 通知 应 用 程序 的 。 


在 我 们 讨论 TCP 时 会 发 现 ， 它 给 应 用 程序 提供 连续 的 字 节 流 ， 没 有 任何 消息 边界 。 因 
此 ， 应 用 程序 可 得 到 它 请 求 的 任意 大 小 的 数据 量 ， 可 供给 充足 的 数据 (如 果 不 行 ， 通 常 可 以 
等 待 )。 


10.11 UDP 服务 器 的 设计 


UDP 的 一 些 特 点 对 要 使 用 它 的 网 络 应 用 程序 的 设计 和 实现 有 影响 [RFC5405]。 服 务 器 一 
般 与 操作 系统 交互 ， 大 多 数 需 要 一 种 方案 来 处 理 并 发 的 多 客户 机 。 客 户 机 设计 与 实现 通常 更 
简单 ， 因 此 我 们 将 不 在 这 里 讨论 它们 。 

在 典型 的 客户 机 / 服务 端 场 景 中 ， 一 个 客户 机 启动 ， 立 即 与 一 台 服 务 器 通信 ， 然 后 就 完 
成 了 。 而 另 一 方面 ， 服 务 器 启动 然后 进入 睡眠 ， 等 待 一 个 客户 机 请 求 的 到 达 。 它 们 在 客户 机 
数据 报到 达 时 被 唤醒 ， 这 经 常 需要 服务 器 来 评估 这 个 请 求 以 及 可 能 要 进行 更 进一步 的 处 理 。 
这 里 我 们 关注 的 不 是 客户 机 和 服务 器 的 程序 编写 方面 ( [UNP3] 覆盖 了 所 有 这 些 细节 )， 而 是 
对 使 用 UDP 的 服务 器 的 设计 和 实现 有 影响 的 UDP 协议 特性 。( 我 们 检查 在 第 13 章 设计 的 
TCP 服务 器 的 细节 。) 虽然 我 们 描述 的 特性 有 点 依赖 被 使 用 的 UDP 实现 ， 但 是 这 些 特 性 对 大 
多 数 实现 来 说 是 共同 的 。 


10.11.1 IP 地 址 和 UDP 端口 号 
到 达 UDP 服务 器 的 是 来 自 客户 机 的 UDP 数据 报 。IP 头 部 包含 了 源 和 目的 IP Hh, UDP 
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头 部 包含 源 和 目的 UDP 端口 号 。 当 一 个 应 用 程序 接收 到 一 个 UDP BAT, AY IP Al UDP 
头 部 已 经 被 剥 掉 ;， 如 果 想 要 给 予 回复 ， 应 用 程序 必须 由 操作 系统 以 其 他 方式 告知 是 谁 ( 源 卫 
地 址 和 端口 号 ) 发 送 的 消息 。 这 个 特点 允许 UDP 服务 器 去 处 理 多 个 客户 机 。 

有 些 服务 器 需要 知道 数据 报 是 发 送 给 谁 的 ， 即 目的 卫 地 址 。 这 看 起 来 似乎 很 明显 ， 服 
务 器 不 用 查看 接收 到 的 数据 报 即 可 马上 知道 这 些 信息 ， 然 而 通常 情况 并 非 如 此 。 比 如 ， 因 
为 多 址 、IP 地 址 别名 ， 以 及 IPv6 多 范围 使 用 ， 一 台 主 机 可 能 有 多 个 IP 地址 ， 单 个 服务 器 可 
使 用 它们 中 的 任何 一 个 来 接收 进入 的 数据 报 (实际 情况 通常 是 这 样 的 )。 任 何 想 要 根据 客户 
机 选择 的 目的 IP 地 址 来 有 分 别 地 执行 任务 的 服务 器 都 需要 得 到 目的 P 地 址 信息 。 另 外 ， 如 
果 目 的 地 址 是 广播 或 组 播 的 (如 ， 主 机 需求 (Host Requirements) RFC[RFC1122] 指出 TFTP 
服务 器 应 忽略 接收 到 的 发 送 给 一 个 广播 地 址 的 数据 报 )， 那 么 有 些 服 务 则 可 能 会 有 不 同 的 
回应 。 


注意 DNS 服务 器 是 对 目的 IP 地 址 敏感 的 一 种 服务 器 类 型 。 它 会 使 用 这 个 信息 来 对 
它 返回 的 地 址 映射 表 排 列 特定 的 次 序 。DNS 的 这 种 行为 在 第 11 章 有 更 详细 的 描述 。 


这 里 得 到 的 教训 是 ， 即 使 一 个 API 可 以 得 到 传输 层 数据 报 里 的 所 有 数据 ， 但 是 额外 的 来 
自 各 层 的 信息 (一般 是 地 址 信息 ) 也 可 能 是 使 服务 器 更 有 效 地 进行 操作 所 需要 的 。 当 然 ， 这 
个 问题 并 非 UDP 独 有 ， 然 而 因为 它 是 我 们 第 一 个 学 习 的 传输 层 协 议 ， 现 在 值得 提出 来 。 

设计 同时 使 用 IPv4 和 IPv6 的 UDP 服务 器 必然 要 考虑 到 这 两 种 地 址 类 型 有 明显 不 同 的 
长 度 以 及 需要 不 同 的 数据 结构 。 另 外 ， 用 IPv6 地 址 来 给 IPv4 编码 的 交互 操作 机 制 可 能 允许 
使 用 IPv6 套 接 字 同 时 处 理 IPv4 和 IPv6 寻 址 。 更 多 细节 见 [UNP3]。 


10.11.2 ”限制 本 地 IP 地址 


大 多 数 UDP 服务 器 在 创建 UDP 端点 时 都 使 其 本 地 IP 地 址 具有 通配符 ( wildcard) 的 特 
点 。 也 就 是 说 如 果 进 入 的 UDP 数据 报 的 目的 地 是 一 个 服务 器 的 端口 ， 那 么 在 该 服务 器 上 的 
任何 本 地 接口 均 可 接收 到 它 ( 任 何在 本 地 机 器 中 使 用 的 IP 地址， 包含 本 地 回路 地 址 )。 例 如 ， 
我 们 在 端口 号 7777 启动 一 个 IPv4 UDP 服务 器 : 


Linux% sock -u -s 7777 


然后 我 们 用 netstat 命令 来 查看 端点 的 状态 ( 见 清单 10-8 ) 。 
清单 10-8 netstat 列 出 了 使 用 通配符 地 址 绑 定 的 IPv4 UDP 服务 器 


Linux% netstat -1 --udp -n 

Active Internet connections (only servers) 

Proto Recv-Q Send-Q Local Address Foreign Address 
udp 0 0 *:37777 0.0.0.0:* 


输出 中 我 们 删除 了 几 行 ， 只 留 下 我 们 感 兴趣 的 。-1 选 项 输出 所 有 监听 套 接 字 (服务 器 )。 
--udp 选项 只 输出 与 UDP 协议 相关 的 数据 。-n 选项 指明 只 打印 IP 地 址 ， 而 非 全 扩展 主机 名 。 


注意 并 非 所 有 系统 的 netstat 都 有 这 些 (Linux) 选项 ， 大 多 数 是 使 用 netstat 命令 
加 上 一 些 选项 的 组 合 来 获取 类 似 的 结果 。 在 BSD 上 ，-1 和 -p udp 选项 是 被 支持 的 。 
Æ Windows Ł, -n, -a 和 -p udp 选项 都 可 被 使 用 。 


本 地 地 址 被 打印 成 *:7777， 这 里 的 星 号 代表 本 地 IP 地 址 已 被 通配符 化 。 当 服务 器 建立 
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它 的 端点 ， 它 可 以 指定 主机 的 一 个 本 地 IP 地 址 ， 包 括 一 个 广播 地 址 ， 作 为 该 端点 的 本 地 IP 
地 址 。 在 这 些 情况 里 ， 只 有 目的 IP 地 址 与 指定 的 本 地 地 址 匹配 时 ， 进 入 的 UDP 数据 报 才 会 
被 转 到 这 个 端点 。 使 用 我 们 的 sock 程序 ， 如 果 我 们 在 端口 号 前 指定 一 个 IP 地 址 ， 它 就 成 为 
了 这 个 端点 的 本 地 地 址 。 例 如 ， 命 令 


Linux% sock -u -s 127.0.0.1 7777 


限制 了 服务 器 只 接收 到 达 本 地 回路 接口 (127.0.0.1) 的 数据 报 ， 这 些 数据 报 只 能 在 同一 台 主 
机 生成 。 清 单 10-9 显示 了 本 例 的 netstat 输出 。 


清单 10-9 只 绑 定 本 地 回路 接口 的 UDP IPv4 服务 器 netstat 输出 


Active Internet connections (only servers) 
Proto Recv-Q Send-Q Local Address Foreign Address 
udp 0 0 127.0.0.127777 0.0.0.0:* 


如 果 我 们 尝试 在 同一 以 太 网 的 主机 上 发 送 一 个 数据 报到 这 个 服务 器 ， 一 个 ICMP V4 端口 
不 可 到 达 消 息 就 会 被 返回 ， 发 送 应 用 程序 会 接收 到 一 个 错误 。 服 务 器 看 不 到 这 个 数据 报 。 


Linux sock -u -v 10.0.0.3 6666 

connected on 10.0.0.5.50997 to 10.0.0.3.6666 
123 

error: Connection refused 


10.11.3 ”使 用 多 地 址 


在 同一 个 端口 号 开启 几 个 不 同 的 服务 器 ， 每 个 服务 器 使 用 一 个 不 同 的 本 地 P 地 址 ， 这 
是 可 能 的 。 然 而 ， 通 常 应 用 程序 应 该 告诉 系统 允许 这 样 重用 相同 的 端口 。 


注意 使 用 套 接 字 API 时 ，SO REUSEADDR 套 接 字 选 项 必须 指定 。 在 我 们 的 
sock 程序 里 通过 指明 -A 选项 即 可 。 


即使 我 们 只 有 一 个 真实 的 网 络 接口 ， 我 们 还 是 可 以 建立 额外 的 IP 地 址 来 供 使 用 。 这 里 ， 
我 们 的 主机 有 一 个 原生 IPv4 地 址 10.0.0.30， 而 我 们 将 赋予 它 两 个 额外 的 地 址 : 


Linux# ip addr add 10.0.2.13 scope host dev eth0 
Linux# ip addr add 10.0.2.14 scope host dev eth0 


现在 我 们 的 主机 有 4 个 单 播 IPv4 地 址 : 它 的 原生 地 址 ， 我 们 刚才 加 的 那 两 个 ， 以 及 它 
的 本 地 回路 地 址 。 我 们 可 以 使 用 sock 程序 在 同一 个 UDP 端口 (8888 ) 开启 三 个 不 同 的 UDP 
实例 : 


Linux% sock -u -s -A 10.0.2.13 8888 
Linux$% sock -u -s -A 10.0.2.14 8888 
Linux sock -u -s -A 8888 


服务 器 必须 使 用 -A 选项 来 启动 ， 告 诉 系统 允许 重用 相同 的 地 址 信息 。 清 单 10-10 的 
netstat 输出 显示 了 服务 器 正在 监听 的 地 址 和 端口 号 。 


清单 10-10 ”相同 UDP 端口 上 的 受 限 的 和 带 通配符 的 UDP 服务 器 


Active Internet connections (only servers) 


Proto Recv-Q Send-Q Local Address Foreign Address 
udp 0 0 10.0.2.13:8888 0.0.0.0:* 
udp 0 0 0.0.0.0:8888 0.0.0.0:* 
udp 0 0 10.0.2.14:8888 0.0.0.0:* 
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在 这 个 场景 里 ， 只 有 那些 目的 地 是 10.0.0.30、 直 接 广 播 地 址 (AN, 10.255.255.255), % 
限 广播 地 址 (255.255.255.255 ) 或 本 地 回路 地 址 ( 127.0.0.1 ) 的 IPv4 数据 报 才能 到 达 带 通 配 
符 本 地 地 址 的 那个 服务 器 ， 因 为 那些 受 限 的 服务 器 覆盖 了 所 有 其 他 的 可 能 情况 。 

当 有 带 通配符 地 址 的 端点 存在 时 ， 就 暗示 着 一 种 优先 级 。 带 指定 IP 地 址 的 端点 ， 会 越 
过 通配符 ， 当 这 个 指定 的 他 与 目的 IP 地 址 匹配 时 ， 它 总 是 被 优先 选择 。 而 只 有 当 匹 配 不 成 
功 时 才 会 使 用 带 通 配 符 的 端点 。 


10.11.4 ”限制 远 端 IP 地 址 


在 前 面 我 们 展示 的 所 有 netstat 输出 中 ， 远 端 卫 地址 (比如 ， 不 是 正在 运行 的 服务 器 本 
地 的 地 址 ) 和 远 端 端口 号 被 显示 为 0.0.0.0:* ， 表 示 端 点 将 会 接收 来 自任 何 IPv4 地 址 和 任何 
端口 号 的 进入 UDP 数据 报 。 然 而 ， 可 以 选择 限制 远 端 地 址 ， 也 就 是 说 端点 只 接收 来 自 指定 
IPv4 地 址 和 端口 号 的 UDP 数据 报 。 注 意 ,， 一 旦 服务 器 收 到 了 某 个 客户 机 的 流量 ,这 些 限 制 
就 会 被 加 上 ， 以 过 滤 掉 来 自 其 他 客户 机 的 额外 流量 。 在 我 们 的 sock 程序 中 使 用 -f 选 项 来 指 
定 远 端 IPv4 地 址 和 端口 号 : 

Linux% sock -u -s -E 10.0.0.14.4444 5555 

这 样 就 设置 了 远 端 IPv4 地 址 为 10.0.0.14 以 及 远 端 端口 号 为 4444。 服 务 器 端口 为 
5555。 如 果 运 行 netstat， 我 们 可 以 看 到 本 地 地 址 也 被 设置 ， 尽管 我 们 没有 明确 指定 它 ( 见 
清单 10-11 )。 


清单 10-11 ”限制 远 端 地 址 导致 的 本 地 地 址 分 配 


Linux% netstat --udp -n 

Active Internet connections (w/o servers) 

Proto Recv-Q Send-Q Local Address Foreign Address State 

udp 0 0 10.0.0.30:5555 10.0.0.14:4444 ESTABLISHED 


这 是 指定 远 端 全 地 址 和 远 端 端口 的 一 个 典型 的 副作用 : 如 果 指 定 远 端 地 址 而 没 选择 本 
地 地 址 的 话 ， 那 么 本 地 地 址 会 被 自动 选择 。 它 的 值 是 由 IP 路 由 选择 的 能 到 达 那 个 指定 的 远 
端 耳 地址 的 网 络 接口 的 地 址 。 确 实 ， 在 这 个 例子 里 ， 在 这 个 以 太 网 里 能 连接 到 那个 远 端 地 
址 的 主要 IPv4 地 址 就 是 10.0.0.30。 注 意 这 样 得 到 的 端点 和 限制 远 端 地 址 的 一 个 结果 是 ， 现 
在 清单 里 的 状态 (State) 栏 指示 连接 是 已 建立 的 (ESTABLISHED )。 

表 10-2 总 结 了 UDP 服务 器 可 建立 的 三 种 地 址 绑 定 方式 。 


表 10-2 UPD 服务 器 的 三 种 地 址 绑 定 方 式 


在 所 有 情况 里 ，local port 是 服务 器 的 端口 ，local IP 必须 是 本 地 分 配 的 了 P 地址 中 的 一 
个 。 表 中 三 行 的 顺序 就 是 UDP 模块 在 尝试 决定 哪个 本 地 端点 去 接收 进入 数据 报时 使 用 的 顺 
序 。 最 具体 的 绑 定 方式 (第 一 行 ) 首先 被 尝试 ， 最 不 具体 的 (最 后 一 行 ， 两 个 IP 地 址 都 是 通 
配 符 ) 被 最 后 尝试 。 


























限制 只 有 一 台 客 户 机 可 用 
限制 本 地 IP 地 址 和 端口 (但 对 所 有 客户 机 开放 ) 
只 限制 本 地 端口 


local_IP.local_port 






local_IP.local_port 


* local_port 
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10.11.5 每 端口 多 服务 器 的 使 用 


尽管 RFC 里 没有 说 明 ， 但 默认 情况 下 最 常见 的 是 : 对 一 给 定 的 地 址 族 (EI IPv4 或 
IPv6 )， 同 一 时 间 只 允许 一 个 应 用 程序 端点 与 任何 一 个 (本 地 IP 地 址 ，UDP 端口 号 ) 对 关联 。 
当 一 个 UDP 数据 报到 达 其 目的 IP 地址 的 那 台 主机 的 目的 活动 端口 时 ， 它 的 一 个 拷贝 被 传送 
给 这 个 唯一 的 端点 (如 ， 一 个 正在 监听 的 应 用 程序 )。 如 前 所 示 ， 这 个 端点 的 IP 地 址 可 以 是 
通配符 ,但 是 只 能 是 唯一 一 个 应 用 程序 可 以 接收 这 些 指定 地 址 的 数据 报 。 如 果 我 们 试图 去 启 
动 男 一 个 使 用 相同 地 址 族 、 有 相同 通配符 本 地 地 址 和 相同 端口 的 服务 器 时 ， 则 是 行 不 通 的 : 


Linux% sock -u -s 12.46.129.3 8888 & 
Linux% sock -u -s 12.46.129.3 8888 
can’t bind local address: Address already in use 


为 了 支持 组 播 ( 见 第 9 章 )， 可 允许 多 个 端点 使 用 相同 的 (本 地 IP 址 ，UDP 端口 号 ) 对 ， 
但 是 应 用 程序 一 般 要 告诉 API 允许 这 样 做 (也 就 是 说 ， 像 前 面 指出 的 ， 用 -A 选项 来 指定 
SO_REUSEADDR 套 接 字 选项 )。 


注意 4.4BSD 要 求 应 用 程序 设置 不 同 的 套 接 字 选 项 (SO REUSEPORT) 来 允许 多 端点 
共享 同一 端口 。 此 外 ， 每 个 端点 必须 设置 这 个 选项 ， 包 括 第 一 个 使 用 这 个 端口 的 端点 。 


当 一 个 UDP 数据 报到 达 的 目的 耳 地 址 是 一 个 广播 或 组 播 地 址 ， 同 时 这 个 目的 IP 地 址 
和 端口 号 有 多 个 端点 时 ， 那 么 每 个 端点 都 会 收 到 这 个 数据 报 的 一 个 拷贝 (端点 的 本 地 IP 地 址 
可 以 是 能 匹配 任何 目的 IP 地 址 的 通配符 )。 然 而 ， 如 果 一 个 UDP 数据 报到 达 其 目的 IP 地 址 
是 一 个 单 播 地 址 ( 即 一 个 普通 的 地 址 ) 时 ,那么 只 有 唯一 的 端点 会 收 到 这 个 数据 报 的 一 个 拷 
贝 。 至 于 哪个 端点 会 收 到 这 个 单 播 数据 报 ， 这 是 依赖 于 具体 实现 的 ， 但 是 这 种 策略 有 助 于 允 
许多 线程 和 多 进程 服务 器 避免 在 同一 进入 请 求 上 被 多 次 调用 。 


10.11.6 ”跨越 地 址 族 : IPv4 和 IPv6 


编写 不 只 跨越 协议 〈 例 如 TCP A UDP) 而 且 跨 越 地 址 族 的 服务 器 是 可 能 的 。 即 ， 我 们 可 
以 编写 服务 器 ， 既 可 对 IPv4 也 可 对 IPv6 的 进入 请 求 进行 回复 。 这 整个 看 起 来 好 像 是 简单 明 
了 的 (IPv6 地 址 只 是 同一 主机 上 的 128 位 长 的 了 P 地 址 而 已 ), 但 是 关于 共享 端口 空间 会 有 些 
小 问题 。 对 于 某 些 系 统 ，UDP (和 TCP) 的 IPv6 和 IPv4 之 间 的 端口 空间 是 共享 的 。 这 就 是 
说 如 果 一 个 服务 绑 定 在 一 个 使 用 IPv4 的 UDP 端口 上 ， 它 同时 也 被 分 配给 在 IPv6 空间 里 的 
同一 个 端口 (反之 亦 然 )， 使 得 其 他 服务 不 能 使 用 该 端口 (除非 如 前 所 述 ，SO_REUSEADDR 
套 接 字 选项 被 使 用 )。 更 进一步 ， 因 为 IPv6 地 址 能 以 一 种 互 操作 的 方式 ( 见 第 2 章 ) 来 对 
IPv4 地 址 进行 编码 ， 所 以 IPv6 里 的 通配符 绑 定 方式 可 能 会 接收 到 进入 的 IPv4 流量 。 

注意 ”情况 要 针对 具体 实现 。 在 Linux 里 ， 所 有 端口 空间 都 是 共享 的 ， 所 有 的 通 配 

符 IPv6 绑 定 意味 着 对 应 的 IPv4 绑 定 。 在 FreeBSD 里 ，IPV6_V6ONLY 套 接 字 选 

项 可 用 于 保证 只 在 IPv6 空间 进行 绑 定 。 程 序 员 应 该 查阅 其 支持 的 那个 操作 环境 的 

IPv6 的 套 接 字 接口 。[RFC3493] 描述 了 CHERE, 


10.11.7 ”流量 和 拥塞 控制 的 缺失 


大 多 数 UDP 服务 器 是 迭代 (iterative) 服务 器 。 也 就 是 说 单个 服务 器 线程 (或 进程 ) 在 
单个 UDP 端口 (如 ， 服 务 器 的 知名 端口 ) 处 理 所 有 客户 请 求 。 通 常 一 个 应 用 程序 使 用 的 每 
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个 UDP 端口 均 有 一 个 大 小 有 限 的 队列 与 之 对 应 。 也 就 是 说 来 自 不 同 客户 机 的 、 几 乎 同时 到 
达 的 请 求 会 被 UDP 自动 排 人 队列 里 。 接 收 到 的 UDP 数据 报 以 它们 到 达 的 顺序 (也 就 是 说 ， 
FCFS 一 一 先 到 先 服务 ) 被 传送 给 应 用 程序 ( 当 它 请 求 下 一 个 时 )。 

然而 ， 这 个 队列 有 可 能 会 溢出 ， 使 得 UDP 实现 丢弃 进入 的 数据 报 。 因 为 UDP 不 提供 流 
量 控制 (flow control) (也 就 是 说 ， 让 服务 器 告诉 客户 机 减 慢 速 率 是 不 可 能 的 )， 即 使 只 服务 于 
一 个 客户 ， 这 样 的 事情 也 会 发 生 。 因 为 UDP 是 一 个 无 连接 协议 ， 自 身 没 有 可 靠 机 制 ， 应 用 
程序 无 法 得 知 什么 时 候 UDP 输入 队列 产生 了 溢出 。 超 额 的 数据 报 仅仅 被 UDP 丢弃 而 已 。 

这 样 的 事实 引起 了 另 一 个 问题 ， 发 送 方 和 接收 方 之 间 的 IP 路 由 器 (在 网 络 中 间 ) 里 也 有 
队列 。 当 这 些 队列 变 满 时 ， 流 量 可 能 会 被 丢弃 ， 多 多 少 少 与 UDP 的 输入 队列 类 似 。 当 这 种 
情况 出 现时 ， 网 络 被 称 之 为 拥塞 ( congested)。 拥 塞 是 不 希望 的 ， 因 为 它 会 影响 所 有 流量 经 
过 拥塞 发 生地 点 的 网 络 用户 ， 这 与 前 面 提 到 的 UDP 输入 情况 不 一 样 ， 那 里 只 有 单个 应 用 程 
序 服务 受 影响 。UDP 对 拥塞 提出 了 特别 的 关注 ， 因 为 当 网 络 正 在 拥塞 时 ， 不 能 通知 它 降低 发 
送 率 。( 即 使 能 被 告知 ， 也 没有 机 制 来 降低 。) 因此 ， 这 被 称 为 拥塞 控制 (congestion control) 
缺失 。 拥 塞 控制 是 一 个 复杂 的 课题 ， 目 前 仍 是 一 个 热门 研究 领域 。 我 们 在 讨论 TCP 时 ( 见 第 
16 章 ) 将 会 考虑 拥塞 控制 。 


10.12 UDP/IPv4 和 UDP/IPv6 数据 报 的 转换 


在 第 7 章 我 们 讨论 了 一 个 用 于 从 IPv4 传送 IP 数据 报到 IPv6 (或 反之 ) 的 框架 。 第 8 章 
描述 了 这 个 框架 如 何 应 用 到 ICMP。 像 第 7 章 描述 的 那样 ， 当 UDP 经 过 一 个 转换 器 时 ， 转 
换 就 会 发 生 ， 除 了 针对 UDP 校 验 和 的 一 些 问题 。 对 于 UDP/IPv4 数据 报 ，UDP 头 部 的 校 
验 和 字段 允许 为 0 (不 计算 )， 而 UDP/IPv6 则 不 然 。 后 果 是 ， 校 验 和 为 0 的 完整 数据 报到 
来 时 ， 从 IPv4 转换 到 IPv6 产生 的 结果 是 ， 生 成 一 个 带 有 完整 进行 了 计算 的 伪 头 部 校 验 和 
的 UDP/IPv6 数据 报 ， 或 者 是 丢弃 了 到 来 的 数据 报 。 转 换 器 应 提供 一 个 配置 选项 来 选择 取 含 
哪 种 情况 ， 因 为 产生 这 些 校 验 和 的 开销 可 能 是 不 能 接受 的 。 如 果 使 用 了 非 校 验 和 中 立 ( non- 
checksum-neutral) 的 地 址 映射 的 话 (COLES 7 章 )， 包 含 非 零 校 验 和 的 分 组 在 任 一 边 被 转换 时 都 
要 求 更 新 校 验 和 。 

分 片 数 据 报 出 现 另 一 个 挑战 。 对 于 无 状态 的 转换 器 ， 被 分 片 的 带 有 零 校 验 和 的 UDP/IPv4 
数据 报 不 能 转换 ， 因 为 没有 合适 的 UDP/IPv6 可 以 计算 。 这 些 数据 报 被 丢弃 。 有 状态 的 转换 器 
( 即 NAT64 ) 可 以 重组 许多 分 片 和 计算 要 求 的 校 验 和 。 被 分 片 的 带 有 已 计算 校 验 和 的 UDP/IP 
数据 报 在 转换 的 两 边 都 被 当 作 普通 分 片 处 理 ， 如 第 7 章 所 述 。 大 UDP/IPv4 数据 报 需要 分 片 以 
适合 转换 后 的 IPv6 最 小 MTU， 它 们 同样 被 当 作 普 通 IPv4 数据 报 处 理 ( 即 它们 按 需 求 分 片 )。 


10.13 互联 网 中 的 UDP 


如 果 试 图 描述 互联 网 上 的 UDP 流量 的 特征 ， 我 们 会 发 现 ， 要 得 到 有 用 、 公 众 可 用 的 数 
据 是 有 些 困 难 的 ， 同 时 各 个 站 点 因 协 议 引 起 的 流量 负载 的 崩溃 也 不 尽 一 样 。 也 就 是 说 ， 像 
[FKMC03] 这 样 的 研究 发 现 ，UDP 占据 了 观察 到 的 互联 网 流量 的 10% ~ 40%， 同 时 随 着 点 
对 点 应 用 数量 的 增加 ，UDP 的 使 用 也 正在 上 升 [Z09]， 尽 管 TCP 流量 仍 在 分 组 和 字 节 量 方面 
占据 了 统治 地 位 。 

在 [SMC02] 中 ， 发 现 互 联网 分 片 流 量 大 多 数 都 是 UDP 的 〈 分 片 流 量 的 68.3% 是 UDP 
的 )， 尽 管 总 体 流 量 中 只 有 极 少 是 分 片 的 (大约 分 组 的 0.3%， 字 节 的 0.8%)。 该 作者 指出 最 
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常见 的 被 分 片 的 流量 类 型 是 基于 UDP 的 多 媒体 流量 (55%; 微软 的 媒体 播放 器 占 了 其 中 的 
一 半 )， 以 及 像 出 现在 VPN 隧道 里 的 封装 /隧道 流量 (大 约 22%)。 此 外 ， 大 约 10% 的 这 些 
分 片 是 反 序 的 〈reverse-order) (我 们 在 之 前 的 例子 里 说 过 最 后 一 个 IP 分 片 要 优先 第 一 个 被 发 
送 )， 最 常见 的 分 片 大 小 是 1500 字 节 (75%)， 然 后 是 1484 字 节 (18%) 和 1492 FAT (1%). 


注意 1500 字 节 MTU 与 以 太 网 的 原生 可 用 负载 大 小 有 关 。 大 小 1484 是 由 数字 设 
¢ #4] (Digital Equipment Corporation) 的 GigaSwitch (现在 已 不 存在 ) PE, 
它 在 当时 是 拓扑 测量 的 重要 部 分 。 


分 片 出 现 的 原因 来 自 两 个 因素 : 粗糙 封装 和 路 径 MTU 发 现 的 缺失 ， 以 及 采用 可 能 使 用 
大 消息 的 应 用 程序 。 前 者 与 经 过 多 个 协议 层 时 的 多 层 封装 有 关 ， 这 增加 了 额外 的 头 部 ， 使 
得 原始 适合 1500 字 节 MTU (最 常见 的 大 小 ) 的 全 分 组 不 再 装 得 下 (如 ， 要 经 过 VPN 隧道 
的 应 用 程序 流量 )。 第 二 个 因素 在 于 使 用 大 分 组 的 应 用 程序 (如 视频 应 用 程序 ) 最 终 要 分 片 。 
[SMC02] 研究 里 的 一 个 奇怪 和 不 幸 的 发 现 是 ， 大 量 的 IPv4 DF 位 字段 是 启用 的 UDP 分 组 
(可 能 要 尝试 进行 PMTU 发 现 ) 被 封装 在 没 启用 该 位 字段 的 UDP 分 组 里 (从 而 破坏 了 该 尝 
却 使 相应 的 应 用 程序 对 此 事实 一 无 所 知 )。 


10.14 与 UDP 和 IP 分 片 相关 的 攻击 


大 多 数 关 于 UDP 的 攻击 与 耗 尽 某 些 共 享 资源 (缓存 ， 链 路 容量 等 ) 或 利用 协议 实现 中 的 
漏洞 以 致 系统 崩溃 或 产生 其 他 不 希望 的 反应 有 关 。 两 者 都 属于 DoS 攻击 这 个 大 分 类 : 成 功 的 
攻击 者 可 使 服务 对 合法 用 户 不 可 用 。 最 直接 的 使 用 UDP 的 DoS 攻击 是 尽 可 能 快 地 直接 产生 
大 量 的 流量 。 因 为 UDP 不 能 管理 它 的 流量 发 送 率 ， 这 对 与 之 共享 相同 网 络 路 径 的 其 他 应 用 
程序 产生 负面 的 影响 。 甚 至 在 没有 恶意 的 情况 下 ， 这 也 可 能 发 生 。 

经 常 与 UDP 相关 的 另 一 种 更 复杂 的 Dos 攻击 类 型 是 放大 ( magnification) 攻击 。 这 种 
攻击 类 型 通常 涉及 一 个 攻击 者 发 送 小 部 分 流量 ， 而 致使 其 他 系统 产生 更 多 的 流量 的 情况 。 在 
所 谓 的 Fraggle 攻击 中 ， 一 个 恶意 的 UDP 发 送 方 伪造 P 源 地 址 成 一 个 受害 者 的 地 址 ， 并 且 
设置 目的 地 址 为 广播 类 型 的 一 种 (如 ， 直 接 广播 地 址 )。UDP 分 组 被 发 送 到 一 个 能 对 进入 数 
据 报 做 回应 的 服务 。 实 现 了 这 些 服 务 的 服务 器 在 回应 时 ， 它 们 把 消息 导向 到 包含 在 到 达 的 
UDP 分 组 的 源 IP 地 址 字段 里 的 卫 地 址 。 这 样 ， 源 地 址 就 是 那个 受害 者 ， 所 以 受害 者 主机 就 
会 因 有 多 个 UDP 流量 对 其 回应 而 处 于 超 负载 中 。 这 种 放大 攻击 的 变种 有 很 多 ， 包 括 诱导 一 
个 字符 生成 服务 与 回 显 服务 交互 ， 从 而 使 得 流量 一 直 处 于 “乒乓 ”中 。 这 种 攻击 与 ICMP 的 
Smurf 攻击 〈( 见 第 8 章 ) 很 接近 。 

出 现 过 几 种 与 PP 分 片 有 关 的 攻击 。 处 理 IP 分 片 要 比 处 理 UDP 更 加 复杂 一 些 ， 因 此 在 
它 的 实现 中 发 现 并 利用 漏洞 不 足 为 奇 。 有 一 种 攻击 方式 涉及 发 送 不 带 任何 数据 的 分 片 。 这 种 
攻击 利用 IPv4 重组 程序 代码 的 一 个 漏洞 ， 可 导致 系统 崩溃 。 另 一 种 在 IPv4 重组 层 的 攻击 是 
70 (teardrop) 攻击 ,涉及 使 用 可 使 某 些 系统 朋 演 或 严重 受 影响 的 重 又 分 片 偏 移 (Fragment 
Offset) 字段 来 精心 构造 一 系列 分 片 。 这 种 攻击 的 一 个 变种 涉及 可 覆盖 前 一 分 片 UDP AM 
WHA AE. ME, BBS AE IPv6 中 被 禁止 使 用 [RFC5722]。 最 后 ， 还 有 与 之 相关 
的 Ping of Death 攻击 (一般 由 ICMPv4 回 显 请 求 构建 ， 也 适合 于 UDP)， 它 通过 产生 一 个 在 
重组 时 会 超过 最 大 限制 的 IPv4 数据 报 来 进行 。 这 是 相当 直接 的 ， 因 为 分 片 偏 移 字段 可 设置 
的 值 最 大 只 能 到 8191， 代 表 了 65 528 字 节 的 偏 移 。 任 何 长 度 超过 7 字 节 的 这 样 的 分 片 都 会 
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(如 果 没 有 保护 措施 ) 导致 产生 一 个 超过 最 大 值 65 535 字 节 的 重组 数据 报 。 关 于 某 些 形 式 的 
分 片 攻击 的 应 对 技术 在 [RFC3128] 给 出 。 


10.15 ”总结 


UDP 是 一 个 简单 的 协议 。 它 的 正式 规范 [RFC0768] 只 有 3 页 (包括 参考 文献 ! )。 它 给 
HPH E IP EZE) 提供 的 服务 是 端口 号 和 校 验 和 。 它 没有 流量 控制 ， 没 有 拥塞 控制 和 
差错 纠正 。 它 有 差错 检测 (对 UDP/IPv4 可 选 ， 但 对 UDP/IPv6 强制 使 用 ) 和 消息 边界 保留 。 
我 们 使 用 了 UDP 来 检查 互联 网 校 验 和 以 及 观察 IP 分 片 如 何 进行 。 我 们 也 见 到 了 UDP 的 其 
他 方面 : 它 如 何 与 路 径 MTU 发 现 一 起 使 用 ， 如 何 影 响 服务 器 设计 ， 以 及 它 在 互联 网 的 出 现 。 

当 要 避免 建立 连接 的 开销 时 ， 当 要 使 用 多 端点 传送 时 (组 播 ， 广播 ), 或 者 当 不 需要 TCP 
的 相对 “繁重 ”的 可 靠 语 义 〈( 例 如 排序 、 流 量 控制 以 及 重 传 ) 时 ， 最 常用 的 就 是 UDP 了 。 多 
亏 了 多 媒体 和 点 对 点 应 用 程序 ，UDP 正 得 到 越 来 越 多 的 使 用 ， 同 时 它 也 是 支持 VoIP 的 主要 
协议 [RFC3550][RFC3261]。 它 还 是 那些 要 必须 经 过 NAT 而 不 引入 太 多 额外 开销 (只 为 UDP 
头 部 提供 8 字 节 ) 的 封装 流量 的 传统 方法 。 在 支持 一 种 IPv6 过 渡 机 制 (Teredo) 和 帮助 NAT 
FR STUN ( 见 第 7 章 ) 方面 ,我 们 已 经 看 到 了 这 种 用 法 ， 同 时 我 们 将 会 在 第 18 章 再 次 看 到 
它 被 用 于 IPsec NAT 穿越 。UDP 其 他 主要 用 途 之 一 是 支持 DNS。 下 一 步 我 们 在 第 11 章 就 探 
讨 这 种 重要 的 应 用 。 
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名 称 解 析 和 域名 系统 





11.1 引言 


到 目前 为 止 ， 我 们 研究 的 协议 使 用 IP 地 址 来 识别 参与 分 布 式 应 用 的 主机 。 对 大 众 来 
说 ， 这 些 地 址 (特别 是 IPv6 地 址 ) 太 烦 珊 而 难以 使 用 和 记忆 ， 因 此 互联 网 支持 使 用 主机 名 称 
(host names) 来 识别 包括 客户 机 和 服务 器 在 内 的 主机 。 为 了 使 用 如 TCP Al IP 等 协议 ， 主 机 
名 称 通 过 称 为 名 称 解 析 (name resolution) 的 过 程 转换 成 IP 地址。 在 互联 网 中 存在 不 同形 式 
的 名 称 解 析 ， 但 是 最 普遍 、 最 重要 的 一 种 是 采用 分 布 式 数据 库 系 统 ， 即 人 们 熟知 的 域名 系统 
(DNS) [MD88]。DNS 作为 互联 网 上 的 应 用 程序 运行 ， 它 使 用 IPv4 或 IPv6 (或 者 两 者 都 使 
用 )。 为 了 实现 可 扩展 性 ，DNS 名 称 是 分 层 的 ， 是 支持 名 称 解 析 的 服务 器 。 

DNS 是 一 个 分 布 式 的 客户 机 / 服务 器 网 络 数据 库 ，TCP/IP 应 用 程序 使 用 它 来 完成 主机 
PA IP 地 址 之 间 的 映射 (反之 亦 然 )， 提 供电 子 邮 件 路 由 信息 、 服 务 命名 和 其 他 服务 。 我 
们 之 所 以 使 用 术语 分 布 式 ， 是 因为 在 互联 网 中 没有 单独 的 一 个 站 点 能 够 知道 所 有 的 信息 。 每 
一 个 站 点 (如 学 院 、 大 学 、 公 司 或 公司 的 部 门 ) 维护 自己 的 信息 数据 库 ， 并 运行 一 个 服务 器 
程序 供 互联 网 上 的 其 他 系统 (客户 机 程序 ) 查询 。DNS 提供 了 允许 客户 机 和 服务 器 相互 通信 
的 协议 ， 并 且 也 提供 了 服务 器 之 间 交 互信 息 的 协议 。 

从 应 用 程序 的 角度 看 ， 访 问 DNS 是 通过 一 个 称 为 地 址 解析 器 ( resolver) 的 应 用 程序 库 
来 完成 的 。 通 常 ， 在 请 求 TCP 打开 一 个 连接 或 使 用 UDP 发 送 一 个 单 播 数据 报 之 前 ， 应 用 程 
序 必 须 将 主机 名 称 转换 为 IPv4 与 /或 IPv6 地 址 。TCP AI IP 协议 实现 对 DNS 一 无 所 知 ， 它 
们 只 对 地 址 进行 操作 。 

本 章 我 们 将 了 解 DNS 中 的 名 称 如 何 设置 ， 地 址 解析 器 和 服务 器 如 何 使 用 互联 网 协 
议 (主要 是 UDP) 进行 通信 ， 以 及 在 互联 网 环境 中 使 用 的 一 些 其 他 的 解析 机 制 。 我 们 不 介 
绍 运行 名 称 服务 器 的 所 有 管理 细节 ， 也 不 介绍 地 址 解析 器 和 服务 器 所 有 的 可 选 参 数 。 这 些 
技术 细节 信息 可 以 从 多 种 其 他 渠道 获取 ， 如 Albitz 和 Liu 的 《 DNS and BIND ) [AL06] 和 
[RFC6168]。 我 们 在 第 18 章 讨论 DNS 安全 (DNSSEC) 的 细节 。 


11.2 DNS 名 称 空间 


DNS 中 使 用 的 所 有 的 名 称 集合 构成 了 DNS 名 称 空 间 (name space)。 这 个 名 称 空间 和 计 
算 机 文件 系统 的 文件 夹 和 文件 相似 ， 都 是 划分 为 层次 且 大 小 写 不 敏感 的 。 当 前 的 DNS 名 称 
空间 是 一 棵 域名 树 ， 位 于 项 部 的 树 根 未 命名 。 树 的 最 高 层 是 所 谓 的 顶级 域名 (TLD), tii 
用 顶级 域名 (gTLD)、 国 家 代码 顶级 域名 (ccTLD )、 国 际 化 国家 代码 顶级 域名 (IDN ccTLD), 
以 及 由 于 历史 原因 而 存在 的 一 类 特殊 的 称 为 ARPA 的 基础 设施 顶级 域名 (infrastructure TLD) 
[RFC3172]。 这 些 构 成 了 一 棵 命名 树 的 最 高 层 ， 如 图 11-1 所 示 。 
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Bus 


TLD 中 有 5 类 经 常 使 用 ， 其 中 一 组 专业 域名 用 于 国际 化 域名 (IDN)“。IDN 的 历史 是 
互联 网 国际 化 的 一 部 分 ， 漫 长 而 复杂 。 在 世界 各 地 有 多 种 语言 ， 每 种 语言 使 用 一 种 或 多 种 文 
字 。 虽 然 Unicode 标准 [U11] 的 目标 是 获取 整个 字符 集 ， 但 是 很 多 字符 看 上 去 相似 却 拥 有 不 
同 的 Unicode 字符 值 。 此 外 ， 以 文本 书写 的 字符 可 能 是 由 右 至 左 的 、 由 左 至 右 的 ,或 者 两 个 
方向 都 有 (将 特定 的 文本 和 其 他 的 文本 结合 时 )。 将 这 些 (或 其 他 的 ) 技术 问题 和 其 他 关心 的 
问题 如 公平 、 国 际 法 、 国 际 政治 以 及 值得 考虑 的 障碍 问题 综合 考虑 。 有 兴趣 的 读者 可 以 查阅 
2006 年 出 版 的 IAB 关于 IDN 的 回顾 [RFC4690] 获取 更 多 信息 。 当 前 的 信息 来 自 于 [IIDN]。 

gTLD 分 为 几 类 : 通用 、 通 用 限制 和 赞助 。 通 用 gTLD 是 开放 的 ， 可 无 限制 地 使 用 。 其 
他 的 (通用 限制 和 赞助 ) 受 限于 各 种 使 用 类 型 以 及 什么 实体 可 以 从 域名 中 分 配 名 称 。 例 如 ， 
EDU 用 于 教育 机 构 ，MIL 和 GOV 用 于 美国 的 军事 和 政府 机 构 ，INT 用 于 国际 组 织 机 构 (如 
NATO)。 表 11-1 总 结 了 截止 到 2011 年 年 中 来 自 [GTLD] 的 22 个 gTLD 摘要 。“ 新 gTLD” 
项 目 正在 进行 中 ,该 项 目 可 以 显著 地 扩展 当前 的 集合 ， 可 能 扩展 至 数 百 甚至 上 千 。 该 项 目 以 
及 与 TLD 管理 相关 的 政策 一 般 由 互联 网 名 称 和 号 码 分 配 机 构 (ICANN) 负责 [ICANN]。 
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È: 
Bi 


航空 运输 行业 

础 设施 
亚洲 和 亚太 地 区 
WHR 


N 


= AEAEE 
= 3/= 

= 

> 


加 泰 罗 尼 亚 语 语言 /文化 社区 


a 


美国 公认 的 中 学 后 教育 机 构 
美国 政府 


国际 条 约 组 织 

人 力 资 源 管 理 者 

美国 军 方 

客户 / 移动 产品 供应 商 / 服务 


a 


Æ & | Bi | > 
allan al? 


a 


证 专业 人 士 /实体 

企业 /个 人 联系 资料 
游 业 

成 人 娱乐 业 


例 F 
www.sita.aero 
18.in-addr.arpa 
www.seo.asia 
neustar.biz 


www.domini.cat 
icanhascheezburger.com 
www.ems.coop 
hpu.edu 
whitehouse.gov 
germany.info 
nato.int 
intel.jobs 
dtic.mil 
flowers.mobi 
icom.museum 
www.name 
ja.net 
slashdot.org 
nic.pro 

telnic.tel 
cancun.travel 


whois.nic.xxx 


ccTLD 包含 ISO 3166 标准 [1SO3 166] 指定 的 两 个 字母 的 国家 代码 ， 以 及 另外 5 个 : uk, 
su, ac, eu 和 tp (最 后 一 个 正 逐 渐 淘汰 )。 由 于 两 个 字母 代码 中 的 一 些 暗 示 其 他 的 用 途 和 意义 ， 


O 图 11-1 还 显示 了 11 个 仍 在 使 用 的 测试 IDN 域名 。 
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各 国 已 经 能 够 从 出 售 其 ccTLD 内 的 域名 获取 商业 暴利 。 例 如 ， 域 名 cnn.tv 是 太平 洋 岛 国 图 
瓦 卢 的 一 个 真实 的 注册 域名 ， 它 已 经 在 销售 与 电视 娱乐 相关 的 域名 。 以 这 样 非常 规 的 方式 创 
建 一 个 域名 有 时 称 为 域名 黑客 (domain hack). 


11.2.1 DNS 命名 语法 


DNS 名 称 树 中 TLD 下 面 的 名 称 进 一 步 划 分 成 组 ， 称 为 子 域名 (subdomain)。 这 是 习惯 
做 法 ， 特 别 是 对 于 ccTLD。 例 如 ， 莫 国 的 大 部 分 教育 站 点 使 用 后 级 .ac.uk， 而 大 部 分 的 盈利 
机 构 以 后 缀 co.uk 结尾 。 在 美国 ， 市 政府 Web 站 点 倾向 于 使 用 子 域名 ci.city.state.us， 其 中 
state 是 州 名 字 的 两 个 字母 的 缩写 ，cit 是 城市 的 名 字 。 例 如 ， 站 点 www.ci.manhattan-beach. 
ca.us 是 美国 加 利 福 尼 亚 州 曼哈顿 海滩 市 政府 的 站 点 。 

到 目前 为 止 ， 我 们 所 看 到 的 名 称 示 例 被 称 为 完全 限定 域名 (FQDN)。 它 们 有 时 更 正式 地 
书写 为 带 有 后 随 点 的 形式 (如 mitedu.)。 后 随 点 表示 该 名 称 是 完整 的 ， 当 进行 名 称 解 析 时 ， 
没有 额外 的 信息 添加 到 该 名 称 。 与 FQDN 形成 对 照 ， 与 系统 配置 中 的 默认 域名 或 域名 搜索 列 
表 集 结合 使 用 的 非 限 定 域名 (unqualified domain name)， 会 有 一 个 或 多 个 字符 串 添 加 到 尾部 。 
当 配 置 系统 时 ( 见 第 6 章 )， 通常 使 用 DHCP (或 是 较为 少见 的 RDNSS 和 DNSSL RA 选项 ) 
指定 一 个 默认 域名 扩展 和 搜索 列表 。 例 如 ， 默 认 域 名 cs.berkeley.edu 可 能 在 UC 伯克利 计算 
机 科学 系 的 系统 中 配置 。 如 果 在 这 些 机 器 上 的 用 户 输入 名 称 vangogh， 本 地 解析 器 软件 就 会 
将 这 个 名 称 转换 为 FQDN vangogh.cs.berkeley.edu.， 然 后 调用 一 个 解析 器 来 确定 vangogh 的 
IP 地 址 。 

一 个 域名 包含 一 系列 的 由 点 分 开 的 标签 (label) 。 名 称 代 表 名 称 层级 中 的 一 个 位 置 ， 句 
点 是 层次 结构 分 隔 符 ， 并 且 按 名 称 中 自 右 至 左 的 顺序 沿 树 下 降 。 例 如 ，FQDN 


www.net.in.tum.de. 


包含 一 个 在 4 级 深度 域名 ( net.in.tum.de) 中 的 主机 名 称 标签 (www)。 从 根 开 始 ， 按 名 称 中 
自 右 向 左 的 顺序 进行 ，TLD 是 de (德国 的 ccTLD), tum 是 Technische Universität München 
的 缩写 ，in 是 informatik (德语 中 计算 机 科学 ) 的 缩写 ， 最 后 net 是 计算 机 科学 系 中 网 络 组 
的 缩写 。 出 于 匹配 的 目的 ， 标 签 是 大 小 写 不 敏感 的 ， 因 此 名 称 ACME.COM 和 acme.com 或 
AcMe.cOm 是 等 价 的 [RFC4343]。 每 个 标签 最 多 可 到 63 个 字符 长 ， 整 个 FQDN 最 多 255 (1 
字 节 ) 个 字符 。 例 如 ， 下 面 的 域名 


thelongestdomainnameintheworldandthensomeandthensomemoreandmore.com 


据 称 可 能 想 申请 名 称 最 长 的 世界 纪录 ， 其 标签 长 度 为 63 ， 但 是 在 吉 尼 斯 世界 纪录 中 没 能 赢得 
一 席 之 地 。 

DNS 名 称 空间 的 层次 结构 允许 不 同 的 管理 机 构 管理 名 称 空间 的 不 同 部 分 。 例 如 ， 创 建 
一 个 新 的 DNS 名称 elevator.cs.berkeley.edu 可 能 只 需要 与 cs.berkeley.edu 子 域 的 拥有 者 协商 
即 可 。berkeley.edu 和 edu 名 称 空 间 部 分 不 需要 修改 ， 因 此 这 些 名 称 空间 的 拥有 者 不 需要 被 
人 打扰 。DNS 的 这 个 特点 是 它 的 可 扩展 性 的 一 个 重要 方面 。 即 没有 一 个 单一 的 实体 需要 管理 
整个 DNS 名 称 空间 的 所 有 变化 。 事 实 上， 为 名 称 创建 层次 结构 的 名 称 空间 是 互联 网 社区 应 
对 规模 压力 的 初始 反应 之 一 ， 并 且 是 现在 使 用 的 结构 的 主要 动力 。 原 始 互联 网 命名 方案 是 平 
的 〈 即 没有 层次 )， 一 个 单一 的 实体 负责 分 配 、 维 护 和 分 发 不 冲突 名 称 的 列表 。 随 着 时 间 的 推 
移 ， 需 要 更 多 的 名 称 ， 发 生 了 更 多 的 变化 ， 这 种 方法 变 得 不 可 行 [MD88]。 
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11.3 名称 服务 器 和 区 域 

部 分 DNS 名 称 空间 的 管理 责任 分 配给 个 人 或 组 织 。 负 责 管理 部 分 有 效 DNS 名 称 空 间 
(一 个 或 多 个 域 ) 的 个 人 应 该 至 少 安置 两 台 名 称 服 务 器 (name server) 或 是 DNS 服务 器 (DNS 
server) 来 存储 名 称 空间 的 相关 信息 ， 以 便于 互联 网 用 户 查 询 名 称 。 服 务 器 的 集合 形成 了 
DNS (服务 ) 本 身 ， 它 就 是 一 个 分 布 式 系统 ， 其 主要 工作 是 提供 名 称 到 地 址 的 映射 。 然 而 ， 
它 也 可 以 提供 广泛 的 额外 信息 。 

在 DNS 服务 器 的 语言 中 ,管理 授权 的 单位 称 为 区 域 (zone)。 一 个 区 域 是 DNS 名 称 空 
间 的 一 棵 子 树 ， 它 可 以 独立 管理 而 不 受 其 他 区 域 影响 。 每 一 个 域名 都 存在 于 某 个 区 域 中 ， 即 
使 是 TLD， 它 也 存在 于 根 区 域 (root zone) 中 。 每 当 一 个 新 记录 添加 到 区 域 中 时 ， 该 区 域 的 
DNS 管理 员 为 该 新 条 目 分 配 一 个 名 称 和 附加 信息 〈 通 常 是 P 地 址 )， 并 且 将 这 些 信息 保存 到 
名 称 服务 器 的 数据 库 中 。 例 如 ， 在 一 个 小 规模 的 校园 里 ， 当 一 台新 服务 器 添加 到 网 络 中 时 ， 
一 个 人 就 能 完成 ， 但 在 一 个 大 企业 中 ， 这 一 工作 就 不 得 不 委托 给 专门 的 机 构 来 完成 (可 能 是 
部 门 或 是 组 织 单 位 )， 因 为 一 个 人 很 可 能 无 法 保证 这 一 工作 。 

一 台 DNS 服务 器 可 以 包含 多 个 区 域 的 信息 。 在 一 个 域名 的 任何 层次 变化 点 上 ( 即 句 
点 出 现 的 地 方 )， 不 同 的 区 域 和 包含 的 服务 器 可 能 被 访问 以 提供 该 名 称 的 信息 。 这 称 为 授权 
( delegation)。 通 常 的 授权 方法 是 使 用 区 域 来 实现 第 二 层 域名 ， 如 berkeley.edu。 在 该 域名 中 ， 
可 能 存在 个 人 主机 (如 www.berkeley.edu)， 也 可 能 存在 其 他 的 域 (如 cs.berkeley.edu)。 每 一 
个 区 域 都 有 一 个 指定 的 所 有 者 或 是 负责 方 ， 他 们 拥有 管理 名 称 、 地 址 和 该 区 域 中 下 属 区 域 的 
权力 。 通 常 管理 者 不 仅 管理 区 域 的 内 容 ， 而 且 也 管理 包含 区 域 数 据 库 的 名 称 服 务 器 。 

区 域 信息 应 该 至 少 存在 于 两 个 地 方 ， 这 意味 着 至 少 应 该 有 两 台 服 务 器 包含 每 个 区 域 的 信 
息 。 这 样 做 是 为 了 形成 元 余 ; 如 果 一 台 服 务 器 不 能 正常 工作 ， 至 少男 一 台 服 务 器 可 以 使 用 。 
所 有 这 些 服务 器 都 包含 一 个 区 域 的 完全 相同 的 信息 。 通 常情 况 下 ， 在 服务 器 之 间 ， 一 台 主 
服务 器 (primary server) 在 磁盘 文件 中 包含 区 域 数据 库 ， 一 个 或 多 个 辅助 服务 器 (secondary 
server) 使 用 称 为 区 域 传输 (zone transfer) 的 进程 ， 从 主 服 务 器 完整 地 获取 该 数据 库 的 副本 。 
DNS 有 一 个 专用 的 协议 用 于 执行 区 域 传 输 ， 但 是 区 域内 容 的 副本 也 可 以 通过 其 他 方式 获取 
(如 rsync 功能 [RSYNC]). 
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名 称 服务 器 包含 如 名 称 到 IP 地 址 映射 的 信息 ， 这 些 信息 可 以 从 三 个 途径 获取 。 名 称 服 
务 器 获取 的 信息 或 是 直接 来 自 于 区 域 数据 库 ， 或 是 区 域 传 输 的 结果 (如 一 个 从 属 服务 器 )， 或 
是 来 自 于 在 处 理解 析 过 程 中 的 另 一 台 服 务 器 。 第 一 种 情况 中 ， 服 务 器 应 该 包含 该 区 域 的 授权 
信息 (authoritative information)， 也 可 以 称 为 该 区 域 的 授权 服务 器 ( authoritative server)。 这 
样 的 服务 器 能 通过 该 区 域 信息 内 的 名 称 鉴 别 。 

大 部 分 的 名 称 服务 器 (除了 一 些 根 服务 器 和 TLD 服务 器 ) 也 缓存 (cache) 它们 学 习 的 区 
域 信息 ， 直 到 称 为 生存 时 间 (TTL) 的 时 间 限 制 为 止 。 它 们 使 用 缓存 的 信息 来 应 答 查 询 请 求 。 
这 样 做 可 以 大 大 减少 DNS 消息 的 流量 ,否则 这 些 信息 将 会 在 互联 网 上 传输 [J02]。 当 应 答 查 
询 时 ， 服 务 器 指明 它 返 回 的 信息 是 来 自 于 它 的 缓存 还 是 来 自 于 区 域 的 授权 副本 。 当 返回 缓存 
的 信息 时 ， 服 务 器 通常 也 会 包含 名 称 服务 器 的 域名 信息 ， 通 过 联系 该 名 称 服务 器 就 可 以 检索 
对 应 区 域 的 授权 信息 。 
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正如 我 们 将 看 到 的 ， 每 个 DNS 记录 (例如 名 称 到 IP 地 址 的 映射 ) 有 自己 的 TTL 以 控 
制 其 缓存 的 时 间 。 这 些 值 在 必要 时 由 区 域 管理 员 设 置 和 更 改 。TTL 指明 了 DNS 中 一 个 映射 
在 任何 地 方 能 够 被 缓存 的 时 间 ， 因 此 如 果 一 个 区 域 变 化 了 ， 网 络 中 就 仍然 可 能 存在 缓存 的 数 
据 ， 这 就 可 能 导致 不 正确 的 DNS 解析 过 程 ， 直 至 TTL 失效 为 止 。 出 于 这 个 原因 ， 一 些 想 要 
改变 区 域内 容 的 区 域 管理 员 ， 他 们 会 在 实施 这 些 更 改 之 前 首先 减少 TTL 的 值 。 这 样 做 可 以 
减 小 网 络 中 存在 不 正确 的 缓存 数据 的 窗口 。 

T 值得 一 提 的 是 ， 缓 存 同时 适用 于 成 功 的 解析 和 不 成 功 的 解析 ( 称 为 和 否定 缓存 (negative 
caching) )。 如 果 一 个 特定 域名 的 请 求 无 法 返回 一 个 记录 ， 该 事实 也 会 被 缓存 。 当 出 错 的 应 用 
程序 一 再 请 求 不 存在 的 域名 时 ， 这 样 做 就 可 以 帮助 降低 互联 网 流量 。 否 定 缓 存在 [RFC2308] 
中 由 可 选 的 变 为 强制 的 。 

在 一 些 网 络 配 置 中 (如 那些 使 用 老 的 UNIX 兼容 的 系统 )， 缓 存 保 存在 附近 的 名 称 服务 器 
中 ， 而 不 是 在 客户 端的 解析 器 中 。 在 服务 器 中 设置 缓存 允许 LAN 上 的 任意 主机 使 用 附近 服 
务 器 以 从 服务 器 的 缓存 中 受益 ， 同 时 也 意味 着 通过 本 地 网 络 访问 缓存 时 存在 很 小 的 延迟 。 在 
Windows 和 更 近 的 系统 (如 Linux) 中 ， 客 户 端 可 以 保存 缓存 ， 它 可 以 允许 同一 系统 上 运行 
的 所 有 应 用 程序 使 用 该 缓存 。 在 Windows 中 ， 这 是 默认 开启 的 ， 而 在 Linux 中 ， 它 是 一 种 可 
以 启用 或 禁用 的 服务 。 

在 Windows 中 ， 本 地 系统 的 缓存 参数 可 以 通过 编辑 下 面 的 注册 表 表 项 来 修改 : 


HKLM\SYSTEM\CurrentControlSet\Services\DNSCache\Parameters 


双 字 值 MaxNegativeCacheTtl 给 定 解析 器 缓存 中 否定 DNS 结果 保留 的 最 大 秒 数 。 双 字 
值 MaxCacheTtl 给 定 解析 器 缓存 中 DNS 记录 可 以 保留 的 最 大 秒 数 。 如 果 该 值 小 于 接收 到 的 
DNS 记录 的 TTL， 较 小 的 值 控制 缓存 中 记录 保留 的 时 间 。 这 两 个 注册 表 表 项 默认 是 不 存在 
的 ， 因 此 必须 要 创建 才能 使 用 。 

在 Linux 和 其 他 支持 的 系统 中 ， 名 称 服务 缓存 进程 (Name Service Caching Daemon, 
NSCD) 提供 客户 端的 缓存 功能 。 它 由 /etc/nscd.conf 文件 控制 ， 其 中 可 以 指明 什么 类 型 的 
解析 (DNS 和 其 他 服务 ) 可 以 被 缓存 ， 以 及 一 些 如 TTL 的 缓存 参数 设置 。 另 外 ， 文 件 /ete/ 
nsswitch.conf 控制 应 用 程序 的 名 称 解析 如 何 进行 。 此 外 ， 它 也 控制 是 否 使 用 本 地 文件 、DNS 
协议 ( 见 11.5 节 ) 以 及 NSCD 来 进行 映射 。 


11.5 DNS 协议 


DNS 协议 由 两 个 主要 部 分 组 成 : 用 于 执行 对 DNS 特定 名 称 查询 的 查询 /响应 协议 和 名 
称 服务 器 用 于 交换 数据 库 记 录 的 协议 (区域 传输 )。 它 有 方法 通知 辅助 服务 器 区 域 数据 库 已 演 
aS, 需要 进行 区 域 传输 (DNS 通知 )， 也 有 方法 动态 更 新 区 域 (动态 更 新 )。 到 目前 为 止 ， 最 
典型 的 用 法 是 使 用 一 个 简单 的 查询 / 响应 来 查找 域名 对 应 的 IPv4 地 址 。 

通常 来 说 ，DNS 名 称 解 析 就 是 将 域名 映射 到 IPv4 地 址 的 过 程 ，IPv6 地 址 映射 的 方式 本 
质 上 来 说 也 是 一 样 的 。 通 过 在 每 个 站 点 或 ISP 本 地 部 署 服务 器 和 一 组 特殊 的 根 服务 器 (root 
server) 构成 DNS 分 布 式 基础 设施 ， 通 过 该 基础 设施 支持 DNS 查询 / 响应 操作 。 还 有 一 套 特 
殊 的 通用 顶级 域名 服务 器 ( generic top-level domain server)， 用 于 扩展 包括 COM 和 NET 在 
内 的 一 些 较 大 的 gTLD. RE 201 年 年 中 ， 有 13 台 由 字母 A 到 M 命名 的 根 服务 器 (更 多 的 
信息 见 [ROOTS]); 其 中 9 AA IPv6 地 址 。 还 有 13 台 gTLD 服务 器 ， 也 由 A 到 M 标示 ; 其 
中 两 台 有 IPv6 地 址 。 通 过 联系 根 服务 器 和 gTLD 服务 器 ， 互 联网 中 用 于 任何 TLD 的 名 称 服 
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务 器 都 可 以 被 发 现 。 这 些 服务 器 相互 协调 ， 提 供 相同 的 信息 。 其 中 有 些 不 是 一 个 单一 的 物理 
服务 器 ， 而 是 使 用 相同 IP 地 址 〈 即 使 用 了 任 播 寻 址 ; MATO 组 服务 器 (J 根 服务 器 
超过 50 )。 

一 个 完整 的 解析 过 程 发 生 在 几 个 实体 之 间 ， 这 样 的 过 程 无 法 利用 已 经 存在 的 缓存 条 目 ， 
如 图 11-2 所 示 。 





ISP DNS 服 务 器 
(缓存 /转发 服务 器 ) 
(递归 ) 
EXAMPLE.COM 
(对 应 的 主机 ) 
A.HOME 
(解析 器 ) A.IANA-SERVERS.NET 
( example.com 的 授权 
l DNS 服务 器 ) 
GW.HOME | 
(递归 ) 根 名 称 服务 器 ( 非 递归 ) 


( 非 递 归 ) 

11-2 A.HOME 查询 EXAMPLE.COM 的 典型 递归 DNS 查询 过 程 涉及 多 达 10 条 消息 。 本 地 递归 服 
务 器 (此 处 为 GW.HOME) 使 用 由 ISP 提供 的 DNS 服务 器 。 该 服务 器 依次 使 用 互联 网 根 域 名 
服务 器 和 gTLD 服务 器 (用 于 COM 和 NET TLD) 来 查找 EXAMPLE.COM 域名 的 名 称 服 务 
器 。 该 名 称 服务 器 (此 处 为 A.IANA-SERVERS.NET) 提供 主机 EXAMPLE.COM 对 应 的 全 地 
址 。 所 有 的 递归 服务 器 缓存 学 习 到 的 任何 信息 供 以 后 使 用 


这 里 ， 我 们 有 一 台 称 为 A.HOME 的 笔记 本 电脑 ， 位 于 DNS 服务 器 GW.HOME 附近 。 域 名 
HOME 是 私有 的 ， 因 此 互联 网 并 不 知道 它 的 存在 一 一 只 存在 于 本 地 用 户 的 区 域 。 当 A.HOME 
的 用 户 想 要 连接 主机 EXAMPLE.COM 时 (如 由 于 指示 浏览 器 访问 页 面 http:/EXAMPLE. 
COM)，A.HOME 必须 确定 服务 器 EXAMPLE.COM K IP hd. (REE A AIK IP HE (如 
果 最 近 它 访问 了 该 主机 ， 它 可 能 知道 )，A.HOME 上 的 解析 器 软件 首先 向 它 的 本 地 名 称 服务 器 
GW.HOME 发 送 请 求 。 该 请 求 要 将 名 称 EXAMPLE.COM 转换 为 一 个 卫 地 址 ， 构 成 了 消息 1 
(图 11-2 中 标示 在 箭头 上 )。 


注意 ”如果 A.HOME 系统 配置 成 默认 的 域名 搜索 列表 ， 那 么 有 可 能 存在 额外 的 查 
询 。 例 如 ， 如 果 .HOME 是 A.HOME 使 用 的 一 个 默认 搜索 域 ， 第 一 个 DNS 查询 可 
能 是 对 名 称 EXAMPLE.COM.HOME 的 查询 ， 这 次 查询 将 会 在 对 HOME 具有 授权 
解释 的 GW.HOME 名 称 服务 器 处 失败 。 随 后 的 查询 将 会 删 去 默认 扩展 ， 结 果 查询 
EXAMPLE.COM。 


如 果 GW.HOME 不 知道 EXAMPLE.COM 的 人 PP 地址 ， 也 不 知道 EXAMPLE.COM 域 
或 COM TLD 的 名 称 服务 器 ， 它 就 转发 查询 至 另 一 个 DNS 服务 器 ( 称 为 递归 )。 这 种 情况 
下 ， 请 求 (消息 2 ) KE ISP 提供 的 DNS 服务器。 假设 该 服务 器 也 不 知道 请 求 的 地 址 和 其 
他 信息 ， 它 联系 根 名 称 服务 器 中 的 一 台 (消息 3 )。 根 服务 器 不 是 递归 的 ， 因 此 它们 不 进 一 
步 处 理 请 求 ， 而 是 返回 需要 联系 的 COM TLD 的 名 称 服务 器 的 信息 。 例 如 ， 它 可 能 返回 名 称 
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A.GTLD-SERVERS.NET 以 及 一 个 或 多 个 它 的 IP 地 址 (消息 4)。 根 据 这 些 信息 ，ISP 提供 的 
服务 器 联系 gTLD 服务 器 (消息 5 )， 发 现 域 名 EXAMPLE.COM 的 名 称 服务 器 的 名 称 和 卫 地 
址 (消息 6)。 这 种 情况 下 ， 服 务 器 之 一 是 A.IANA-SERVERS.NET。 

基于 域名 的 正确 的 服务 器 ，ISP 提供 的 服务 器 联系 适当 的 服务 器 (消息 7)， 该 服务 器 回 
复 请 求 的 IP 地 址 (消息 8)。 此 时 ISP 提供 的 服务 器 能 够 将 请 求 的 信息 回复 给 GW.HOME ( 消 
息 9)。GW.HOME 现在 能 够 完成 初始 查询 ， 并 将 期 望 的 IPv4 和 /或 IPv6 地 址 回复 给 客户 端 
GAB 10 )。 

从 A.HOME 的 角度 看 ， 本 地 名 称 服务 器 能 够 执行 该 请 求 。 然 而 真正 发 生 的 是 递归 查询 
(recursive query),GW.HOME 和 ISP 提供 的 服务 器 依次 产生 额外 的 DNS 请 求 来 满足 A.HOME 
的 查询 。 总 之 ， 大 部 分 的 名 称 服务 器 执行 像 这 样 的 递归 查询 。 明 显 的 例外 是 根 服务 器 和 其 他 
的 TLD 服务 器 ， 它 们 不 执行 递归 查询 。 这 些 服务 器 是 相当 宝贵 的 资源 ， 因 此 ， 执 行 DNS 查 
询 的 每 台 机 器 的 递归 查询 阻塞 它们 将 导致 全 球 互联 网 性 能 不 佳 。 


11.5.1 DNS 消息 格式 


有 一 种 基本 的 DNS 消息 格式 [RFC6195]。 它 用 于 所 有 的 DNS 操作 (查询 、 响 应 、 区 域 
传输 、 通 知 和 动态 更 新 )， 如 图 11-3 所 示 。 


L I AAA LL 


事务 ID ( 16 位 ) 标志 : 


OpCode [A|T Cc ROODE 
Rl or dalelplalzlplpl ami [> At: mene 
Ae 
wee RA: 递归 可 用 
ANCOUNT/PRCOUNT Z: 0 
( 回答 数 /先决 条 件数 ) AD: 真实 数据 [RFC4035] 
NSCOUNT/UPCOUNT ( 授权 记录 数 / 更 新 数 ) CD: 禁止 校 验 [RFC4035] 
操作 码 (通用 值 ) : 


查询 (0 ) 一 一 正常 查询 
通知 (4) ——DNS NOTIFY [RFC1996] 
更 新 (5) ——DNS UPDATE [RFC2136] 


1 i} 

I 1 

| 响应 码 (通用 值 ) : 

i 区 段 (用 于 DNS UPDATE): 区 | NoError (0) 一 一 无 错误 
| 1 

1 1 

1 I 





ARCOUNT/ADCOUNT ( 额外 信息 数 ) 








BES: 问题 ,回答 ,授权 ,额外 信息 


域 ， 先 决 条 件 ， 更 新 ， 额 外 信息 (可 FormEr ( 1 ) 一 格式 错误 
变 长 度 ) ServFail (2) 一 一 服务 器 失效 


Notlmp (4) 一 一 未 实现 
Refused (5 ) 一 一 查询 拒绝 
图 11-3 DNS 消息 格式 有 一 个 固定 的 12 字 节 头 部 。 整 个 消息 通常 在 UDP/IPv4 数据 报 中 运载 ,并且 限于 
512 字 节 。DNS UPDATE (动态 更 新 DNS) 使 用 字段 名 ZOCOUNT、PRCOUNT、UPCOUNT 和 
ADCOUNT。 特 殊 的 扩展 格式 ( 称 为 EDNS0 ) 允许 消息 大 于 512 字 节 ，DNSSEC 需要 这 种 消息 
( 见 第 18 F) 





基本 的 DNS 消息 以 固定 的 12 字 节 头 部 开始 ， 其 后 跟随 4 个 可 变 长 度 的 区 段 ( section : 
问题 (或 查询 )、 回 答 、 授 权 记 录 和 额外 记录 。 除 了 第 一 个 区 段 ， 其 他 都 包含 一 个 或 多 个 资源 
记录 (Resource Record，RR )， 我 们 将 在 11.5.6 节 详 细 讨 论 资源 记录 。( 问 题 区 段 包 含 一 个 数 
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据 项 ， 其 结构 与 RR 很 相近 。) RR 可 以 被 缓存 ; 而 问题 则 不 可 以 。 

在 固定 长 度 的 头 部 中 ， 事 务 ID (Transaction ID ) 字段 由 客户 端 设 置 ， 由 服务 器 返回 。 客 
户 端 使 用 它 来 匹配 响应 和 查询 。 第 二 个 16 位 的 字 包 含 一 些 标志 和 其 他 的 子 域 。 从 最 左边 的 
位 开始 ，QR 是 1 位 的 字段 : 0 表示 查询 消息 ; 1 表示 响应 消息 。 下 一 个 是 操作 码 (OpCode )， 
4 位 的 字段 。 查 询 和 响应 中 的 正常 值 是 0 (标准 查询 )。 其 他 值 为 : 4 (通知 )，5 (更 新 )。 其 
他 值 (1 ~ 3) 是 弃 用 的 ， 在 运作 过 程 中 不 会 出 现 。 下 一 个 是 AA 位 字段 表示“ 授权 回答 
(authoritative answer)” (与 缓存 回答 相对 )。TC 是 1 位 的 字段 ， 表 示 “ 可 截断 的 (truncated》。 
使 用 UDP 时 ， 它 表示 当 应 答 的 总 长 度 超过 512 字 节 时 ， 只 返回 前 512 个 字 节 。 

RD 是 1 位 字段 ， 表 示 “ 期 望 递归 (recursion desired)”。 该 字段 可 以 在 一 个 查询 中 设置 ， 
并 在 响应 中 返回 。 它 告诉 服务 器 执行 递归 查询 。 如 果 该 字段 没有 设置 ， 且 被 请 求 的 名 称 服务 

521 器 没有 授权 回答 ， 则 被 请 求 的 名 称 服务 器 就 返回 一 个 可 以 联系 获取 回答 的 其 他 名 称 服务 器 的 

列表 。 此 时 ， 全 部 的 查询 可 能 通过 联系 其 他 名 称 服务 器 来 继续 。 这 被 称 为 迭代 查询 (iterative 
query). RA 是 1 位 字段 ， 表 示 “ 递 归 可 用 (recursion available)”。 如 果 服 务 器 支持 递归 查询 ， 
则 在 响应 中 设置 该 字段 。 根 服务 器 一 般 不 支持 递归 ， 因 此 强制 客户 端 执 行 迭 代 查 询 来 完成 名 
称 解 析 。 目前 Z 位 字段 必须 是 0， 但 是 为 将 来 使 用 而 保留 。 

如 果 包 含 的 信息 是 已 授权 的 ， 则 AD 位 字段 设置 为 真 ， 如 果 禁 用 安全 检查 〈 见 第 18 章 )， 
W CD 位 设置 为 真 。 响 应 码 (RCODE) 是 一 个 4 位 的 返回 码 字段 ， 其 值 见 [DNSPARAM]。 
通常 的 值 为 0( 没 有 差错 ) 和 3 (名 称 差错 或 “不 存在 域名 ”， 写作 NXDomain)。 在 表 11-2 
中 给 出 了 前 面 11 个 错误 代码 ( 11 ~ 15 的 值 未 定义 )。 使 用 一 种 特殊 的 扩展 来 定义 其 他 的 类 
型 (W 11.5.2 节 )。 名 称 错误 只 会 由 授权 名 称 服务 器 返回 ， 表 示 在 查询 中 指定 的 域名 不 存在 。 


表 11-2 RCODE 域 中 使 用 的 前 10 个 错误 类 型 





t | 和 名称 | ša | 描述 和 目的 

0 BAIA 

KCANA EM 

2 服务 器 失效 ; 服务 器 的 处 理 错误 

; 不 存在 城 名 :引用 了 未 知 域名 

4 没有 实现 ;请求 在 服务 器 端 不 被 支持 

s He, SA AL 

6 名 称 存在 但 是 不 应 该 存在 (用 于 更 新 ) 
7 RRSet 存在 但 是 不 应 该 存在 (用 于 更 新 ) 
8 RRSet 不 存在 但 是 应 该 存在 (用 于 更 新 ) 
9 服务 器 不 是 为 该 区 域 授权 的 (用 于 更 新 ) 
10 在 区 域 中 不 包含 名 称 (用 于 更 新 ) 


随后 的 4 个 字段 均 为 16 位 ,说 明了 组 成 DNS 消息 的 问题 、 回 答 、 授 权 和 额外 信息 区 段 
中 条 目的 数目 。 对 于 查询 消息 ， 问 题 的 数目 通常 为 1， 其 他 三 项 计数 则 为 0。 对 于 应 答 消 息 ， 
回答 的 数目 至 少 为 1。 问题 区 段 有 名 字 、 类 型 和 类 。( 类 用 于 支持 非 互联 网 记录 ， 但 是 出 于 我 
们 的 目的 ， 可 以 忽略 这 一 点 。 类 型 识别 要 查找 的 对 象 的 类 型 。) 所 有 的 其 他 区 段 都 包含 零 个 或 
多 个 RR。RR 包含 名 字 、 类 型 和 类 信息 ， 也 包含 控制 数据 缓存 时 间 的 TTL 值 。 当 我 们 了 解 
了 DNS 如 何 编码 名 称 ， 传 输 DNS 消息 时 选择 何 种 传输 协议 以 后 ， 我 们 将 详细 地 讨论 最 重要 
的 RR 类 型 。 
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1.5.1.1 名称 和 标签 

DNS 消息 末尾 的 可 变 长 度 区 段 包 含 问 题 、 回 答 、 授 权 信 息 (包含 某 些 数据 授权 信息 的 名 
称 服务 器 的 名 称 ) 和 可 能 减少 必要 查询 次 数 的 额外 信息 。 每 一 个 问题 和 RR 以 它 所 涉及 的 名 
称 〈 称 为 域名 或 是 拥有 名 称 ) 开始 。 每 个 名 称 由 一 系列 的 标签 (label) 组 成 。 标 签 类 型 有 两 
种 : 数据 标签 (data label) 和 压缩 标签 ( compression label)。 数 据 标签 包含 构成 一 个 标签 的 
字符 ; 压缩 标签 充当 指向 其 他 标签 的 指针 。 当 相同 字符 串 的 多 个 副本 在 多 个 标签 中 出 现时 ， 
压缩 标签 有 助 于 节省 DNS 信息 的 空间 。 


11.5.1.2 ”数据 标签 

每 个 数据 标签 以 1 字 节 的 计数 开始 ， 该 计数 指定 了 紧 随 其 后 的 字 节 数 目 。 名 称 以 值 为 0 
的 字 节 结束 ，0 也 是 一 个 标签 ， 其 长 度 值 为 0 ( 根 标签 )。 例 如 ， 名 称 www.pearson.com 的 编 
码 如 图 11-4 所 示 。 


对 于 数据 标签 来 说 ， 每 个 标签 的 |3jw|w|”|7|?|*|*|*|*|。|a|3|*|。|=|? 
长 度 字 节 ( 值 ) 必须 在 0 到 63 之 间 ， 一 最 大 63 个 字 答 一 | 


因为 标签 (长度 ) 限于 63 字 节 。 没 有 标签 长 度 标签 长 度 0 


(指明 结束 ) 
填充 标签 ， 因 此 总 的 名 称 长 度 可 能 是 x 
奇数 。 尽 管 有 时 这 些 标签 称 为 “文本 ” 图 11-4 DNS 名 称 编码 为 一 系列 的 标签 。 本 例 将 名 称 


7 i .com 编码 ， 共 有 4 个 标签 。 名 称 的 
ee (AE I! www.pearson.com 
s iene Ae 最 后 通过 未 命名 根 的 长 度 值 为 0 的 标签 标示 


这 样 使 用 。 事 实 上 ， 即 使 是 可 以 编码 Unicode 字符 [RFC5890][RFC5891] 的 国际 化 域名 ， 也 
使 用 一 种 奇怪 的 称 为 “Punycode 码 ”[RFC3492] 的 编码 语法 ， 该 语法 使 用 ASCII 字符 集 表 
示 Unicode 字符 。 为 了 完全 保证 安全 ， 推 荐 遵循 [RFC1035] 中 的 要 求 ， 其 中 建议 标签 “以 字 
母 开 始 ， 以 字母 或 数字 结束 ， 并 且 内 部 只 包含 字母 、 数 字 和 连 字 符 ”。 


11.5.1.3 ”压缩 标签 

在 许多 情况 下 ，DNS 响应 消息 在 回答 、 授 权 以 及 与 相同 域名 相关 的 额外 信息 区 段 中 携 
带 信息 。 如 果 使 用 了 数据 标签 ， 当 涉及 相同 的 名 称 时 ，DNS 消息 中 的 相同 字符 就 会 重复 。 为 
了 避免 这 种 元 余 和 节省 空间 ， 使 用 了 一 种 压缩 机 制 。DNS 消息 中 ， 在 域名 的 标签 部 分 能 出 
现 的 任意 位 置 ， 前 面 的 单一 计数 字 节 (通常 在 0 和 63 之 间 ) 的 2 个 高 位 置 1， 剩 余 的 位 与 随 
后 的 字 节 中 的 位 组 合 形成 一 个 14 位 的 指针 ( 偏 移 量 )。 偏 移 量 给 出 了 距离 DNS 消息 开始 处 
的 字 节 数 ， 在 那里 可 以 找到 一 个 用 于 替代 压缩 标签 的 数据 标签 ( 称 为 压缩 目标 ( compression 
target))。 因 此 压缩 标签 能 够 指向 距离 开始 处 多 达 16 383 个 字 节 的 位 置 。 图 11-5 说 明了 我 们 
如 何 使 用 压缩 标签 编码 域名 usc.edu 和 ucla.edu。 


量 0 = 
pi 压缩 标签 —— iA 
FAN 
Z/ujsje/3]}e|/d}ulo}]4]uje] 1] a i192) 4) 0 
标签 长 度 


(192+ 指 明 压 缩 标签 ) 
图 11-5 ”压缩 标签 可 以 引用 其 他 标签 从 而 节省 空间 。 这 可 以 通过 设置 标签 内 容 之 前 的 一 个 字 节 的 2 个 
高 位 完成 。 此 信号 说 明 随 后 的 14 个 位 用 于 提供 替换 标签 的 偏 移 量 。 本 例 中 usc.edu 和 ucla.edu 
共享 edu 标签 
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在 图 11-5 中 ， 我 们 看 到 共同 的 标签 edu 是 如 何 被 两 个 域名 共享 的 。 假 设 名 称 在 偏 移 量 0 
处 开始 ， 如 前 所 述 ， 数 据 标签 用 于 编码 usc.edu。 随 后 的 名 称 是 ucla.edu， 标 签 ucla 使 用 数据 
标签 编码 。 然 而 ， 标 签 edu 可 以 复 用 usc.edu 的 编码 。 这 可 以 通过 将 标签 类 型 (Type) 字 节 的 
2 个 高 位 置 1 以 及 在 剩余 的 14 位 中 编码 edu 的 偏 移 量 来 完成 。 因 为 edu 第 一 次 出 现在 偏 移 量 
为 4 的 位 置 ， 我 们 只 需要 设置 第 一 个 字 节 为 192 (6 位 为 0)， 随 后 字 节 为 4。 图 11-5 中 的 例 
子 只 显示 了 节省 4 个 字 节 的 情况 ， 但 是 很 显然 压缩 较 大 的 共同 标签 可 以 得 到 更 大 幅度 的 节省 。 


11.5.2 DNS 扩展 格式 (EDNSO ) 


到 目前 为 止 ， 描 述 的 基本 DNS 消息 格式 在 一 些 情况 中 可 能 受到 限制 。 它 有 固定 长 度 的 
字段 ， 当 使 用 UDP 时 512 字 节 的 总 长 度 限制 (不 包含 UDP 或 下 头 部 )， 以 及 指明 差错 类 型 
的 有 限 空间 (4 位 的 响应 (RCODE) 字段 )。 一 种 称 为 EDNS0 (因为 将 来 可 能 存在 扩展 超过 
索引 0 ) 的 扩展 机 制 在 [RFC2671] 中 详细 说 明 。 然 而 目前 它 的 使 用 并 不 广泛 ， 而 对 于 支持 
DNS 安全 (DNSSEC; 见 第 18 章 ) 来 说 ， 它 是 必要 的 ， 所 以 随 着 时 间 的 推移 它 有 可 能 获得 更 
广泛 的 部 署 。 

EDNS0 指定 了 一 种 特殊 类 型 的 RR ( 称 为 OPT 伪 RR 或 元 RR)， 它 被 添加 到 请 求 或 响应 
消息 中 额外 的 数据 区 段 来 表示 EDNS0 的 使 用 。 在 任意 的 DNS 消息 中 可 以 出 现 至 多 一 个 这 样 
的 记录 。 我 们 在 11.5.6 节 中 讨论 其 他 的 RR 类 型 时 ， 将 讨论 OPT 伪 RR 的 特殊 格式 。 目 前 ， 
需要 注意 的 重要 事情 是 ， 如 果 一 个 UDP DNS 消息 包含 一 个 OPT RR， 那 么 就 允许 它 超过 512 
字 节 的 长 度 限 制 ， 并 可 能 包含 一 套 扩展 的 错误 代码 。 

EDNS0 也 定义 了 扩展 的 标签 类 型 (延伸 到 先前 提 到 的 数据 标签 和 压缩 标签 之 外 )。 扩 展 
标签 将 它们 的 标签 类 型 /长 度 (Type/Length) 字 节 的 前 2 位 设置 为 01, 与 64 到 127 (包括 ) 
之 间 的 值 对 应 。 曾 经 使 用 过 一 种 实验 的 二 进 制 标签 方案 (类 型 65 )， 但 是 现在 不 推荐 。 值 
127 用 于 将 来 使 用 ， 超 过 127 的 值 是 未 分 配 的 。 


11.5.3 UDP 或 TCP 


对 于 TCP 和 UDP 来 说 ，DNS 的 知名 端口 号 都 是 53。 最 常见 的 格式 使 用 如 图 11-6 所 示 
的 UDP/IPv4 的 数据 报 结构 。 





UDP 数据 报 
DNS 消息 ( 最 多 512 字 节 ) 一 一 一 一 > 


= | DNS 
IPv4 水 7 额外 


(20 字 节 ; (8 (12 ( 可 变 长 度 ) 

















IPv4 数 据 报 


图 11-6 DNS 消息 通常 封装 在 UDP/IPv4 数据 报 中 ,并且 其 长 度 限制 为 512 字 节 ， 除 非 不 使 用 TCP 和 / 
或 EDNS0。 每 一 个 区 段 (除了 问题 区 段 ) 包含 一 组 资源 记录 


当 解析 器 发 出 一 个 查询 消息 ， 而 返回 的 响应 消息 中 TC 位 字段 被 设置 (“ 被 截断 ”) 时 ， 
真实 的 响应 消息 的 长 度 超过 512 字 节 ， 因 此 服务 器 只 返回 前 面 的 512 个 字 节 。 该 解析 器 可 能 
会 使 用 TCP 再 次 发 出 请 求 消息 ， 现 在 这 是 必须 被 支持 的 配置 [RFC5966]。 这 样 就 允许 返回 超 
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过 512 字 节 的 消息 ， 因 为 TCP 将 更 大 的 消息 分 割 成 多 个 报 文 段 。 

当 一 个 区 域 的 一 个 辅助 名 称 服 务 器 开启 时 ， 它 通常 从 该 区 域 的 主 名 称 服务 器 执行 区 域 传 
输 。 区 域 传 输 可 能 由 计时 器 引起 ， 也 可 能 由 DNS NOTIFY 消息 引起 ( 见 11.5.8.3 节 )。 完 全 
区 域 传 输 使 用 TCP， 因 为 它们 可 能 很 大 。 增 量 区 域 传 输 ， 即 只 有 更 新 的 条 目 会 被 传输 ， 可 能 
会 首先 使 用 UDP， 但 如 果 响 应 消息 太 大 ， 就 会 切换 到 TCP， 就 像 常规 查询 一 样 。 

当 使 用 UDP 时 ， 解 析 器 和 服务 器 应 用 软件 都 必须 执行 自己 的 超时 和 重 传 。 在 
[RFC1536] 中 给 出 了 这 方面 的 建议 。 它 建议 起 始 超时 时 间 至 少 为 4 秒 ， 随 后 的 超时 导致 超时 
时 间 的 指数 增长 (有 点 像 TCP 的 算法 ; 见 第 14 章 )。Linux 和 类 UNIX 系统 允许 通过 修改 
/etc/resolv.conf 文件 (通过 设置 timeout 和 attempts 参数 ) 来 改变 重 传 超时 参数 。 


11.5.4 问题 (查询 ) 和 区 域 区 段 格式 


DNS 消息 的 问题 或 查询 字段 列 出 了 被 引用 的 问题 。 问 题字 段 中 每 个 问题 的 格式 如 图 11-7 
所 示 。 虽 然 协议 可 以 支持 多 个 问题 ， 但 是 通常 只 有 一 个 。 动 态 更 新 中 的 区 域 字段 也 使 用 相同 
的 结构 ( 见 11.5.7 节 )， 但 使 用 不 同 的 名 称 。 
查询 名 称 (Query Name) 是 要 被 查询 的 fol | | | | | | del | | Ha 
域名 ， 使 用 我 们 之 前 描述 的 标签 的 编码 。 每 a 
个 问题 都 有 查询 类 型 (Query Type) 和 查询 类 
(Query Class)。 类 的 值 是 1、254 BK 255, 分 别 F 
表示 互联 网 类 、 没 有 类 或 所 有 类 ， 这 些 是 我 们 查询 类 型 (16 位) (DNS 更 新 的 区 域 类 型 ) 
感 兴趣 的 所 有 的 情况 (其 他 值 通常 不 用 于 TCP/ 
下 网 络 )。 查 询 类 型 字段 包含 一 个 值 ， 该 值 使 图 11-7 DNS 消息 中 的 查询 (或 问题 ) 字段 不 
用 表 11-2 中 的 值 指明 正在 执行 的 查询 类 型 。 最 包含 TTL， 因 为 它 是 不 被 缓存 的 
常见 的 查询 类 型 是 A (如 果 启 用 IPv6 的 DNS 
解析 ， 则 是 AAAA)， 这 意味 着 需要 一 个 与 查询 
名 称 对 应 的 IP 地址 。 它 也 可 以 创建 一 个 类 型 为 LE 


查询 名 称 ( 可 变 ) 
( DNS 更 新 的 区 域名 称 ) 





ANY 的 查询 ， 这 将 返回 与 查询 名 称 相 匹 配 的 在 
同一 类 中 任意 类 型 的 所 有 RR。 


11.5.5 回答、 授权 和 额外 信息 区 段 格式 


授权 和 额外 信息 ， 包 含 RR 的 集合 。 在 大 多 


i 
名 称 (可 变 ) i 
i 





数 情况 下 ， 这 些 区 段 中 的 RR 可 以 使 用 通 配 TOLAR 

4 (wildcard) 域名 作为 自己 的 名 称 。 这 些 域 

名 中 星 号 标签 一 一 只 Se Aho ye a= 

[RFC4592] 一 一 首先 出 现 ( 即 最 左边 )。 每 个 资 OATH CIEE 

源 记 录 都 有 如 图 11-8 所 示 的 形式 。 | 
Aik (Name) 字段 (有 时 也 被 称 为 “自己 ”图 11-8 DNS 资源 记录 的 格式 。 对 于 互联 网 中 

的 名 称 "、“ 拥 有 者 ”或 “记录 拥有 者 名 称 ”) 是 的 DNS， 类 (class) 字段 总 是 包含 值 

随后 的 资源 数据 对 应 的 域名 。 它 与 我 们 之 前 描 1。TTL 字段 给 出 RR 可 以 缓存 的 最 大 


述 的 名 称 和 标签 的 格式 相同 。 类 型 (Type) 字段 时 间 量 ( 秒 ) 
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指定 为 RR 类 型 代码 中 的 一 个 〈 见 11.5.6 节 )。 这 些 和 我 们 之 前 描述 的 查询 类 型 值 相同 。 对 于 
互联 网 数据 来 说 ， 类 (Class) 字段 是 1。TTL 字段 是 RR 可 以 被 缓存 的 秒 数 。 资 源 数据 长 度 
(RDLENGTH) 字段 指定 了 资源 数据 (RDATA) 字段 中 包含 的 字 节 数 。 数 据 的 格式 取决 于 类 
型 。 例 如 ，A 记录 (类 型 1 ) 在 RDATA 域 中 有 一 个 32 位 的 IPv4 地 址 。 我 们 以 后 再 讨论 其 他 
的 RR 类 型 。 

[RFC2181] 定义 术语 资源 记录 和 集 (RRSet) 为 共享 相同 的 名 称 、 类 和 类 型 ， 但 数据 不 相同 
的 一 组 资源 记录 。 这 种 情况 会 发 生 ， 例 如 ， 当 一 个 主机 有 多 个 地 址 记录 与 其 名 称 对 应 时 ( 例 
如 ， 因 为 它 有 多 个 IP 地 址 )。 在 相同 RRSet 中 的 RR 的 TTL 值 必须 是 相等 的 。 


11.5.6 ”资源 记录 类 型 


虽然 DNS 常用 来 确定 一 个 特定 的 名 称 对 应 的 IP 地 址 ,但 是 它 也 可 以 用 于 相反 的 目的 和 
一 些 其 他 的 事情 。 它 可 用 于 IPv4 和 IPv6， 甚 至 可 以 为 非 互 联网 数据 (在 DNS 术语 中 为 其 他 
类 [RFC6195]) 提供 分 布 式 数 据 库 功 能 。 由 DNS 提供 的 广泛 功能 主要 是 由 于 它 能 够 拥有 不 同 
类 型 的 资源 记录 。 

资源 记录 有 很 多 类 型 (完整 列表 见 [DNSPARAMS])， 并 且 一 个 单一 的 名 称 可 能 有 多 个 匹 
配 的 RR。 表 11-3 提供 了 在 传统 的 DNS ( 即 没有 DNSSEC 安全 扩展 的 DNS) 中 使 用 的 最 常 
见 RR 类 型 的 列表 。 


表 11-3 在 DNS 协议 消息 中 使 用 的 流行 的 资源 记录 类 型 和 查询 类 型 。 当 使 用 安 
全 DNS (DNSSEC) 时 ， 需 要 使 用 其 他 的 记录 (未 显示 ) 


tt 描述 和 目的 

1 IPv4 地 址 记录 ( 32 位 IPv4 地 址 ) 

2 名 称 服务 器 ; 提供 区 域 授权 名 称 服务 器 的 名 称 
5 


[RFC1035] | 规范 名 称 ; 将 一 个 名 称 映射 为 男 一 个 (提供 一 种 形式 的 名 称 别名 ) 


授权 开始 ; 为 区 域 提供 授权 信息 (名 称 服务 器 ， 联 系 的 电子 邮件 地 
指针 ; 提供 地 址 到 (规范 ) 名 称 的 映射 ; 在 in-addrarpa 和 ip6.arpa 
域 中 用 于 IPv4 和 IPv6 的 逆向 查询 


[RFC1035] 邮件 交换 器 ; 为 一 个 域 提 供电 子 邮 件 处 理 主 机 的 名 称 


本 文本 ;提供 各 种 信息 (如 ， 与 SPF 发 垃圾 邮件 方案 一 起 使 用 以 识别 
[RFC1464] 授权 电子 邮件 服务 器 ) 

28 IPv6 地 址 记录 (128 位 IPv6 地 址 ) 

33 服务 器 选择 ; 通用 服务 的 传输 终点 

35 名 称 授权 指针 ;支持 交替 的 名 称 空间 


41 伪 RR; 支持 更 大 的 数据 报 、 标 签 、EDNS0 中 的 返回 码 
可 省 大 区 直人 
252 AXFR ‘patent 完全 区 域 传输 ; 通过 TCP 运载 


[RFC5936] 


255 请 求 任意 记录 


资源 记录 用 于 多 种 用 途 ， 但 可 以 分 为 三 大 类 : 数据 类 型 、 查 询 类 型 和 元 类 型 。 数 据 类 型 
用 于 传达 在 DNS 中 存储 的 信息 ， 如 IP 地 址 和 授权 名 称 服务 器 的 名 称 。 查 询 类 型 使 用 和 数据 
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类 型 相同 的 值 ， 增 加 了 几 个 额外 的 值 (如 ，AXFR、IXFR 和 *)。 它 们 可 以 在 我 们 前 面 描述 的 
问题 区 段 中 使 用 。 元 类 型 指定 了 与 一 个 特定 单一 DNS 消息 相关 联 的 临时 数据 。 在 本 章 中 我 
们 只 讨论 OPT RR 元 类 型 (所 有 其 他 的 类 型 在 第 18 章 讨论 )。 最 常见 的 数据 类 型 RR 包括 A, 
NS, SOA, MX, CNAME, PTR, TXT, AAAA, SRV 和 NAPTR。NS 记录 用 于 将 DNS 名 
称 空 间 和 执行 解析 的 服务 器 联系 起 来 ， 它 们 包含 了 一 个 区 域 授权 名 称 服务 器 的 名 称 。A 和 
AAAA 记录 分 别 用 于 提供 给 定 特定 名 称 的 IPv4 或 IPv6 地 址 。CNAME 记录 提供 了 一 种 获得 
界 一 个 域名 的 别名 的 方法 。SRV 和 NAPTR 记录 帮助 应 用 程序 发 现 支持 特定 服务 的 服务 器 的 
位 置 ， 并 使 用 替代 的 命名 方案 (不 是 DNS) 来 访问 这 些 服务 。 我 们 将 在 下 面 的 小 节 探 讨 每 一 
种 记录 类 型 。 


11.5.6.1 地 址 (A, AAAA) 和 名 称 服务 器 记录 

可 以 说 ，DNS 中 最 重要 的 记录 是 地 址 (A, AAAA) 和 名 称 服务 器 CNS) 记录 。A 记 
录 包 含 32 位 的 IPv4 地 址 ，AAAA ( 称 为 “四 A”) 记录 包含 IPv6 地 址 。NS 记录 包含 授权 
DNS 服务 器 的 名 称 ， 该 服务 器 包含 一 个 特定 区 域 的 信息 。 因 为 单独 的 DNS 服务 器 的 名 称 不 
足以 执行 一 个 查询 ， 所 以 这 些 服 务 器 的 IP 地址 通常 也 作为 DNS 响应 中 额外 信息 区 段 中 所 谓 
的 胶 纪 录 (glue record) 来 提供 。 事 实 上 ， 每 当 授权 名 称 服务 器 的 名 称 和 它们 要 授权 的 名 称 
使 用 相同 的 域名 时 ， 就 需要 这 种 胶 记录 来 避免 循环 。( 如 果 example.com 的 名 称 服务 器 是 nsl. 
example.com，nsl.example.com， 考 虑 该 如 何 解 析 。) 使 用 在 大 多 数 Linux/ 类 UNIX 系统 上 提 
供 的 工具 dig， 我 们 可 以 看 到 A、AAAA 和 NS 记录 的 结构 。 在 这 里 ， 我 们 请 求 了 与 域名 rfe- 
editor.org 相关 的 任意 类 型 的 记录 : 


Linux% dig +nostats -t ANY rfc-editor.org 


; <<>> DiG 9.6.0-P1 <<>> +nostats -t ANY rfc-editor.org 
77 global options: +cmd 
77 Got answer: 
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 53052 
; flags: qr rd ra; QUERY: 1, ANSWER: 12, AUTHORITY: 0, ADDITIONAL: 2 


QUESTION SECTION: 
SS Edr) org. IN ANY 


~. 
~ 


7; ANSWER SECTION: 


rfc-editor.org. 1654 IN AAAA 2001:1890:1112:1::2f 
rfc-editor.org. 1654 IN A 64.170.98.47 
rfc-editor.org. 1654 IN NS ns0O.ietf.org. 
rfc-editor.org. 1654 IN NS nsl.hkgl.afilias-nst.info. 


; ADDITIONAL SECTION: 

ns0.ietf.org. 756 IN A 64.170.98.2 

ns0.ietf.org. 756 IN AAAA 2001:1890:1112:1::14 

在 命令 的 输出 中 ， 前 两 行 显示 了 正在 使 用 的 dig 程序 的 版 本 、 向 它 提供 的 参数 ， 以 及 
隐 式 的 参数 ( +cmd 意味 信息 本 身 会 被 打印 )。 接 下 来 的 部 分 指明 了 DNS 应 答 消 息 中 的 数 
据 : QUERY 操作 码 ， 说 明 未 遇 到 错误 的 NOERROR 状态 ， 以 及 事务 ID 53052。 在 操作 码 
(OpCode) 字段 ,QUERY 用 于 查询 和 响应 。 接 下 来 ,flags 行 表 示 该 消息 是 查询 响应 (qr 标志 )， 
而 不 是 一 个 查询 ， 并 且 原 始 查询 中 期 望 使 用 递归 (rd 标志 )， 而 且 由 响应 服务 器 (ra 标志 ) 提 
供 。 消 息 包含 了 一 个 查询 区 段 和 回答 区 段 中 的 12 个 资源 记录 (只 显示 了 4 个 )。 在 授权 区 段 
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中 没有 RR， 这 意味 着 该 响应 可 能 来 自 于 缓存 服务 器 ( RR 是 非 授权 的 )。 与 不 同 的 服务 器 交 
互 可 能 获得 不 同 的 结果 。 和 额外 信息 区 段 包 含 一 个 授权 服务 器 的 IPv4 和 IPv6 地 址 ， 我 们 希望 
与 它 联系 。 问 题 区 段 包 含 我 们 的 原始 查询 的 副本 : 域名 rfc-editor.org 的 ANY 类 型 。 

在 显示 的 回答 字段 中 的 4 个 RR 中， 我 们 发 现 一 个 A 类 型 ,一 个 AAAA 类 型 和 两 
个 NS 类 型 。 从 这 些 信息 ， 我 们 可 以 看 到 ， 域 名 为 rfe-editor.org 的 主机 ， 其 IPv4 地 址 为 
64.170.98.47，IPv6 地 址 为 2001:1890:1112:1::2f。 正 如 NS 记录 所 示 ， 这 也 是 一 个 子 域 。 使 
用 下 面 的 命令 我 们 可 以 很 快 的 猜测 并 验证 该 子 域 中 至 少 有 一 台 主 机 。 


Linuxs host ftp.rfc-editor.org 
ftp.rfc-editor.org has address 64.170.98.47 


这 个 例子 说 明了 A, AAAA 和 NS 记录 的 一 些 有 趣 的 方面 。 首 先 ， 一 个 单一 的 域名 有 这 
些 类 型 (或 更 多 ) 的 记录 是 可 能 的 。 对 于 特定 组 织 的 “著名 的 ”支持 IPv6 的 服务 器 来 说 ， 这 
是 相当 普遍 的 。 我 们 还 可 以 看 到 ， 每 一 条 记录 都 有 TTL 值 ， 除 了 那些 在 相同 RRset 中 的 记 
录 ， 它 们 之 间 的 区 别 很 大 。 回 答 区 段 中 记录 的 TTL 是 1654s ( 约 半 小 时 )， 额 外 信息 区 段 中 记 
录 的 TTL 是 756s ( 约 12 分钟 )。 注 意 ， 缓存 记录 的 TTL 值 不 会 比 从 授权 源 获 取 的 相同 记录 
的 TTL 值 大 。 缓 存 记录 的 TTL 一 直 在 “衰变 ”"， 直 到 该 记录 从 授权 服务 器 再 次 取 回 为 止 。 
此 ， 从 同一 台 服 务 器 多 次 检索 缓存 记录 通常 造成 TTL 值 递减 。 


11.5.6.2 ”例子 
现在 ， 我 们 已 经 看 到 了 DNS 消息 的 格式 、 传 输 协议 参数 ， 以 及 基本 查询 和 响应 的 RR 
类 型 ， 下 面 让 我 们 看 一 个 例子 。 我 们 从 一 个 简单 的 例子 开始 ， 来 查看 客户 端 上 解析 器 、 本 地 
名 称 服务 器 和 由 ISP 管理 的 远程 名 称 服 务 器 之 间 的 通信 。 此 情形 演示 了 DNS 缓存 的 重要 性 。 
其 拓扑 结构 如 图 11-9 所 示 。 
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(对 应 的 主机 ) 
A.HOME a 
einen ADNS1.BERKELEY.EDU 
Sy (权威 DNS 服务 器 ) 
GW.HOME 
(私有 DNS 服务 器 ) 


图 11-9 一 个 简单 的 DNS 查询 /响应 的 示例 。 本 地 DNS 服务 器 (GW.HOME) 向 客户 端 (A.HOME) 
提供 递归 查询 ， 并 在 请 求 的 数据 不 在 缓存 中 时 使 用 ISP 提供 的 DNS 服务 器 


在 我 们 的 Windows 客户 端 (A.HOME) 上 ,我 们 开始 时 使 用 命令 删除 任何 由 解析 器 库 组 
存 的 DNS 数据 。 然 后 ， 我 们 执行 对 域名 berkeley.edu 的 地 址 (A 记录 类 型 ) 的 查询 : 

C:\> ipconfig /flushdns 

Windows IP Configuration 


Successfully flushed the DNS Resolver Cache. 


C:\> nslookup 
Default Server: gw 
Address: 10.0.0.1 


AA PBA AH B77 


> set type=a 

> berkeley.edu. 
Server: gw 
Address: 10.0.0.1 


Non-authoritative answer: 

Name: berkeley.edu 

Address: 169.229.131.81 

”第 一 个 命令 是 特定 于 Windows 的 ， 能 够 删除 由 客户 端的 解析 器 软件 缓存 的 数据 。 在 

Windows 和 Linux/ 基于 UNIX 的 系统 中 都 可 以 使 用 的 nslookup 程序 提供 了 一 种 基本 的 方式 
来 为 特定 数据 查询 DNS。 在 执行 时 ， 它 指明 正 使 用 的 用 于 解析 的 名 称 服务 器 (这 里 服务 器 是 
地 址 为 10.0.0.1 的 GW)。 使 用 set 命令 ， 我 们 安排 查询 A 记录 ， 然 后 查询 名 称 berkeley.edu.。 
nslookup 再 一 次 指明 它 使 用 的 用 于 解析 的 名 称 服务 器 。 然 后 ， 它 也 给 我 们 指出 回答 是 非 授 权 
的 ( 即 ， 它 正 由 缓存 服务 器 来 提供 )， 并 且 请 求 的 地 址 是 169.229.131.81。 

为 了 在 数据 分 组 级 别 查看 DNS 协议 发 生 了 什么 ,我 们 使 用 Wireshark， 并 详细 地 查看 第 
一 个 分 组 ， 如 图 11-10 所 示 。 


inside.tr - Wireshark 


Transaction ID: Dx0002 
ig Flags: 0x000 (standard query) 
Questions: 1 
Answer RRs: 0 
Authority RRs: 0 
Additional RRs: 0 
@ Queries 
berkeley, edu: type A, class IN 
Name: berkeley. edu 
Type: A (Host address) 
Class: IN (COx0001) 





图 11-10 一 个 UDP/IPv4 数据 报 ， 它 包含 一 个 DNS 标准 查询 ， 即 查询 berkeley.edu 相关 的 IPv4 地 址 


在 跟踪 记录 中 有 两 个 消息 : 一 个 标准 查询 消息 和 一 个 标准 查询 响应 消息 。 在 第 一 条 消息 
(查询 ) F, W IPv4 地 址 是 10.0.0.120 (在 客户 端的 DHCP 分 配 的 地 址 ; 见 第 6 章 )， 目 的 地 
是 10.0.0.1 (DNS 服务 器 )。 查 询 是 一 个 源 端 口 为 56288 (临时 端口 ) 和 目的 端口 为 53 (知名 
DNS 端口 ) 的 UDP/IPv4 数据 报 。 根 据 完 整 封 装 ， 请 求 是 一 个 包含 72 字 节 的 以 太 网 帧 。 此 
长 度 可 以 通过 以 下 几 个 部 分 求 和 得 到 : 以 太 网 头 部 (14 字 节 )，IPv4 头 部 (20 字 节 )，UDP 
KM (8 字 节 )，DNS 固定 头 部 (12 字 节 )， 查 询 类 型 (2 字 节 )， 查 询 类 (2 字 节 )， 加 上 
berkeley 和 edu 的 数据 标签 (分别 为 9 字 节 和 4 字 节 )， 再 加 上 尾部 的 0 字 节 。 

现在 讨论 DNS 头 部 的 细节 ， 事 务 ID 是 0x0002， 形 成 了 DNS 头 部 的 前 2 个 字 节 ， 位 
于 UDP 负载 的 开始 处 。 只 有 一 个 标志 (默认 的 递归 请 求 ) 被 设置 ， 因 此 该 消息 是 一 个 查询 
消息 。 消 息 包含 一 个 标准 查询 ， 带 有 一 个 问题 。 其 他 区 段 是 空 的 。 问 题 本 身 是 为 了 查询 名 
称 berkeley.edu， 并 且 正 在 寻找 IN (互联 网 ) 类 中 A 类 型 (地 址 记录 ) 的 信息 。 在 收 到 此 消 
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息 后 ， 运 行 于 10.0.0.1 的 名 称 服务 器 进程 不 能 直接 响应 ， 因 为 它 不 知道 该 地 址 ， 然 后 它 将 查 
询 转 发 至 配置 使 用 的 下 一 个 (上游 ) 名 称 服 务 器 。 在 本 特例 情况 下 ， 那 个 名 称 服务 器 地 址 为 
206.13.28.12〈 见 图 11-11). 


outside.tr - Wireshark 





a 
Transaction ID: OxbObs 
| @ Flags: Ox0100 (standard query) oo 00o 
Questions: 1 
Answer RRS: 0 
Authority RRs: 0 
Additional RRs: 0 
B Queries 
B berkeley.edu: type A, class IN 
Name: berkeley. edu 
e: A (Host address) 
Class: IN (€0x0001) 





Pal 11-11 在 GW.HOME 产生 的 DNS 请 求 ， 因 为 递归 被 发 送 到 ISP 的 名 称 服 务 器 


在 图 11-11 中 ,我 们 看 到 了 一 个 与 客户 端 发 出 的 查询 相似 的 查询 ， 但 在 这 种 情况 下 源 
IPv4 地 址 是 70.231.136.162 ( ISP 端的 GW.HOME 的 IPv4 地 址 )。 目 的 地 址 是 206.13.28.12, 
是 ISP 提 供 的 DNS 服务 器 的 IPv4 地 址 ， 源 端口 是 位 于 本 地 DNS 服务 器 的 临时 端口 
(60961), #4 ID 重新 生成 并 设置 为 0xb0b8。 需 要 注意 的 是 ，Wireshark 指出 对 查询 的 响应 
包含 在 数据 分 组 2 中 。 

11-12 中 的 数据 分 组 2 是 我 们 所 看 到 的 第 一 个 DNS 响应 。 首 先 ， 我 们 注意 到 ，UDP 
源 端 口号 是 53, 但 目的 端口 是 临时 端口 60961。 事 务 ID 与 查询 (0xb0b8 ) 匹配 ,但 标志 
(Flags) 字段 现在 包含 值 0x8180 (响应 、 递 归 请 求 和 可 用 递归 全 部 被 设置 ) 。 问 题 区 段 包 含 
正在 提供 答案 的 问题 的 一 份 副本 ， 并 且 通 常 和 由 客户 端 发 送 的 原始 查询 完全 匹配 (例如 ， 大 
小 写 被 保留 )。 在 回答 区 段 有 一 个 RR。 它 是 A 类 型 (地 址 ) 的 ，TTL 值 为 10 分钟 ， 数 据 长 
度 为 4 个 字 节 (IPv4 地 址 的 长 度 )， 其 值 为 169.229.131.81， 即 我 们 要 请 求 的 berkeley.edu 的 
IPv4 地 址 。 注 意 ， 授 权 标志 没有 设置 ， 应 答 的 授权 区 段 是 空 的 。 该 响应 基于 缓存 的 数据 ， 它 
不 是 该 域名 的 授权 。 此 时 ， 本 地 域名 服务 器 也 缓存 该 值 (但 只 有 10 分 钟 ， 如 它 收 到 的 RR 中 
A TTL 所 说 明 的 )， 并 回答 请 求 客户 端 ( 见 图 11-13 )。 

在 图 11-13 中 的 响应 ， 数 据 分 组 2 很 像 从 206.13.28.12 发 送 的 那 一 个 ， 除 了 现在 它 是 从 
10.0.0.1 向 原始 客户 端 10.0.0.120 发 送 的 ， 以 及 事务 ID 与 原始 DNS 请 求 中 的 相 匹配 。 还 要 
注意 的 是 ， 从 客户 端的 角度 看 ， 整 个 事务 处 理 的 往返 时 间 是 14.7ms 左右 ， 而 我 们 知道 大 部 
分 的 时 间 (14.2ms) 被 本 地 域名 服务 器 (GW.HOME) All ISP 的 域名 服务 器 (206.13.28.12 ) 
之 间 的 事务 占据 。 


名 其 解析 和 域名 系统 


outside,tr - Wireshark 


| Datagram: 
ia Domain Name < 


Transaction ID: OxbObs 

a Flags: 0x8180 Carandang 

1. a eons sose S 
.000 o. 


Questions: 1 
Answer RRS: 1 
Authority RRs: 0 
Additional RRs: 0 
@ Queries 
ia berkeley. edu: type A, 
Name: berkeley. edu 


[Request In: 1] 
[Time: 0.014203000 seconds] 


query response, NO error) 

Response: Message is a response 

Opcode: Standard query (0) 

Authoritative: Server is not an authority for domain 
Truncated: Message is not truncated 

Recursion desired: Do query recursively 

Recursion available: Server can do recursive queries 
Z: reserved (0) 


Answer authenticated: Answer/authority portion was not authenticated 


Non-authenticated data: Unacceptable 


= Reply code: No error (0) 


class IN 


Type: A (Host address) 


Class: IN (0x0001) 

a answers A 
& berkeley. edu: type A, 
Name: berkeley. edu 


class. TA: addr "169. 229, 131.81 


Type: A (Host address) 


Class: IN (0x0001) 


Time to live: 10 minutes 


Data length: 4 


Addr: 169. 229.131.81 (169. 229.131. 81) 





[Time: 0.014680000 seconds] 


Transaction ID: Ox0002 


@ Flags: 0x8180 (Standard query response, No error) 


Questions: 1 

answer RRs: 1 

Authority RRs: 0 

Additional RRs: 0 
B Queries 


& berkeley.edu: type A, class IN 


Name: berkeley. edu 


Type: A (Host address) 


Class: IN Eee 
Se Answeiss DG I 


=] berkeley. edu: EEN class 


Name: berkeley. edu 


Eb ls 
81 


Type: A (Host address) 


Class: IN COx0001) 


Time to live: 10 minutes 


Data length: 4 
Addr: 169.229.131.81 


图 11-13 由 GW.HOME 生成 去 往 客户 端的 响应 。 


(169.229.131.81) 





这 个 消息 完成 了 递归 的 DNS 事务 


379 


380 Zs 


11.5.6.3 规范 名 称 (CNAME) 记录 

CNAME 记录 代表 规范 名 称 (canonical name) 的 记录 ， 并 用 于 将 单一 域名 的 别名 引入 到 
DNS 命名 系统 中 。 例 如 ， 名 称 www.berkeley.edu 可 能 有 一 个 CNAME 记录 ， 以 映射 到 其 他 
一 些 机 器 〈 例 如 ，www.w3.berkeley.edu)， 因 此 ， 如 果 Web 服务 器 位 于 一 台 不 同 的 计算 机 上 ， 
世界 上 其 他 地 方 要 找到 该 新 系统 所 需要 做 的 可 能 就 是 对 DNS 数据 库 进行 一 个 相对 简单 的 改 
变 。 现 在 普遍 的 做 法 是 使 用 CNAME 记录 来 建立 公共 服务 的 别名 。 因 此 ， 如 www.berkeley. 
edu, ftp.sun.com, mail.berkeley.edu 和 www.ucsd.edu 的 名 称 都 是 DNS 中 指向 其 他 RR 的 
CNAME 条 目 。 

在 一 个 CNAME RR 中 ，RDATA 区 段 包含 与 该 域名 相关 的 “规范 名 称 ”( 别 名 )。 这 样 的 
名 称 使 用 和 其 他 名 称 相同 的 编码 类 型 〈《 例 如， 数据 标签 和 压缩 标签 ) 。 当 一 个 CNAME RR A 
一 个 特定 的 名 称 而 存在 ， 其 他 数据 是 不 被 允许 的 [RFC1912] (除非 在 使 用 DNSSEC ; 见 第 18 
章 )。CNAME RR 的 域名 可 能 不 能 用 于 规则 域名 能 出 现 的 所 有 地 方 ( 例 如， 作为 一 个 NS RR 
的 目标 )。 此 外 ,规范 名 称 本 身 可 能 是 一 个 CNAME ( 称 为 CNAME 链 ), 但 是 通常 不 鼓励 这 
么 做 ， 因 为 它 可 以 导致 DNS 解析 器 使 用 更 多 的 非 必要 的 查询 。 然 而 ,确实 也 有 一 些 服务 使 
用 此 功能 。 例 如 ， 大 容量 站 点 www.whitehouse.gov (在 写作 的 时 候 ) 使 用 了 Akamai 公司 所 
提供 的 内 容 交 付 网 络 (CDN)“。 当 查看 这 个 域名 时 ,我们 找到 以 下 内 容 : 


Linuxs host -t any www.whitehouse.gov 

www.whitehouse.gov is an alias for www.whitehouse.gov.edgesuite.net. 
Linux% host -t any www.whitehouse.gov.edgesuite.net 
www.whitehouse.gov.edgesuite.net is an alias for al128.h.akamai.net. 
Linux% host -t any al1128.h.akamai.net 

al128.h.akamai.net has address 92.123.65.42 

al128.h.akamai.net has address 92.123.65.51 


这 样 ，CNAME 链 就 可 以 和 DNS 一 起 使 用 。 然 而 ， 由 于 其 潜在 的 性 能 影响 ， 这 样 的 链 
通常 被 解析 器 限制 在 几 个 链接 内 (如 5 )。 长 链 有 可 能 是 执行 错误 或 是 误解 的 结果 ， 因 为 很 难 
想象 在 正常 情况 下 为 什么 需要 它们 。 


注意 有 一 个 标准 的 资源 记录 称 为 DNAME (类 型 39 ) [RFC2672][IDDN]。DNAME 
记录 就 像 CNAME 记录 一 样 ， 但 是 是 整个 区 域 的 。 例 如 ,使 用 一 个 单一 的 DNAME 
资源 记录 可 以 将 具有 NAME.example.com 形式 的 所 有 名 称 映射 到 NAME.newexample. 
com。 然 而 ，DNAME 记录 并 不 适用 于 顶层 记录 本 身 ( 这 里 的 example.com), 


11.5.6.4 逆向 DNS 查询 : PTR (指针 ) 记录 

虽然 DNS 最 重要 的 功能 是 提供 从 名 称 到 IP 地 址 的 映射 ， 但 是 很 多 情况 下 ， 需 要 逆向 
上 映射。 例如， 一 个 正 接受 传人 的 TCP/IP 连接 请 求 的 服务 器 能 够 从 传人 的 IP 数据 报 确定 连接 
的 源 IP 地 址 ， 但 连接 本 身 并 不 携带 该 地 址 对 应 的 名 称 ， 这 样 名 称 就 必须 通过 其 他 方式 查找 。 
幸运 的 是 ， 巧 妙 地 利用 DNS 可 以 提供 这 种 能 力 。 

PTR RR 类 型 用 于 响应 逆向 DNS 查询 ， 当 将 一 个 P 地 址 转换 为 其 名 称 时 ， 它 通常 是 很 
必要 的 。 它 以 一 种 特殊 的 方式 使 用 了 特殊 的 in-addr.arpa (IPv6 中 为 ip6.arpa) 域 。 考 虑 一 个 
IPv4 地 址 ， 如 128.32.112.208。 在 分 类 的 地 址 结构 中 ( 见 第 2 章 )， 这 个 地 址 来 自 于 128.32B 


晶 ” 内容 交付 网 络 一 般 包括 大 量 同步 内 容 缓存 ， 它 们 位 于 网 络 的 特定 拓扑 位 置 。CDN 可 让 客户 访问 内 容 提 供 
商 的 付费 内 容 时 的 延迟 最 小 。 
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类 地 址 空间 。 为 了 确定 对 应 到 这 个 地 址 的 名 称 ， 首 先 将 该 地 址 逆转 ， 然 后 添加 特殊 的 域 。 本 
例 中 ， 将 会 使 用 名 称 


208.112.32.128.in-addr.arpa. 


进行 PTR 记录 的 查询 。 实 际 上 ， 这 是 在 查询 域 112.32.128.in-addrarpa. 中 的 “主机 ”208。 
在 本 节 中 我 们 稍 后 将 会 看 到 更 多 的 逆向 DNS 查询 的 例子 。 


”注意 通常 使 用 NS、A 和 AAAA 记录 的 规则 DNS 名 称 空间 ， 不 会 自动 与 PTR 记 


录 支 持 的 “逆向 ”名 称 空间 连接 。 因 此 ， 有 一 个 现 有 的 没有 设置 对 应 的 逆向 映射 的 
前 向 解析 (或 是 有 一 个 不 同 的 ) 是 可 能 的 (甚至 是 比较 常见 的 )。 一 些 服务 检查 两 个 
方向 设置 的 等 价 映射 ， 并 且 在 这 种 情况 下 ， 可 能 会 拒绝 服务 。 


回忆 一 下 ，IPv4 地 址 通常 以 “点 分 十 进 制 格式 ”书写 ，IPv6 地 址 以 十 六 进 制 格式 
书写 (例如 ，169.229.131.81 和 2001:503:a83e::2:30 ) 。 这 些 地 址 可 以 被 认为 是 自 左 到 右 
层次 结构 中 存在 的 名 称 。 例 如 ， 地 址 169.229.131.81 有 自 上 而 下 的 层次 结构 (阅读 自 左 
往 右 ): 169，229，131，81。 通 过 逆转 点 分 十 进 制 IPv4 地 址 ， 将 其 看 作 是 一 个 DNS 名 
PK, 我们 可 以 使 用 DNS 来 执行 从 IP 地 址 到 名 称 的 映射 。 因 此 名 称 81.131.229.169 实际 
上 是 IPv4 地 址 169.229.131.81 的 逆转 。 对 于 IPv6 来 说 ,方案 是 相似 的 ,但 是 任何 不 显 
示 的 0 被 展开 ， 每 个 十 六 进 制 数字 变 成 一 个 字符 。 例 如 ，2001:503:a83e::2:30 的 道 转 是 
0.3.0.0.2.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.e.3.8.a.3.0.5.0.1.0.0.2。 幸 运 的 是 ， 用 户 很 少 要 直接 输入 
这 些 名 称 。 

如 前 所 述 ， 特 殊 的 .in-addrarpa 域 (适用 于 IPv4 ) 和 .ip6.arpa (适用 于 IPv6 ) 用 于 将 支 
持 这 些 类 型 名 称 和 逆向 DNS 查找 的 PTR (“指针 ”) RR 连接 起 来 。 例 如 ， 考 虑 下 面 的 命令 : 


C:\> nslookup 

Default Server: gw 

Address: 10.0.0.1 

> server c.in-addr-servers.arpa 

Default Server: c.in-addr-servers.arpa 
Address: 196.216.169.10 

> set type=ptr 

> 81.131.229.169.in-addr.arpa. 

Server: c.in-addr-servers.arpa 
Address: 196.216.169.10 


169.in-addr.arpa nameserver = w.arin.net 
169.in-addr.arpa nameserver = t.arin.net 
169.in-addr.arpa nameserver = dill.arin.net 
169.in-addr.arpa nameserver = x.arin.net 
169.in-addr.arpa nameserver zZ.arin.net 
169.in-addr.arpa nameserver y-arin.net 
169.in-addr.arpa nameserver u.arin.net 
169.in-addr.arpa nameserver = v.arin.net 


这 个 例子 显示 了 如 何 设置 .in-addrarpa 域 。 根 据 [RFC5855], HÈ in-addr-servers.arpa 和 
ip6-servers.arpa 分 别 用 于 形成 与 服务 器 相关 的 域名 ， 并 且 该 服务 器 为 IPv4 和 IPv6 提供 逆向 
DNS 映射 。 截 至 2011 年 ， 对 于 每 个 卫 版 本 有 5 个 这 样 的 服务 器 : X.in-addr-servers.arpa 和 
X.ip6-servers.arpa, JL) X (ER a 到 f (包括 ) 的 字母 。 

虽然 我 们 已 经 提 到 的 10 个 服务 器 包含 逆向 映射 的 授权 数据 ， 但 是 它们 不 包含 我 们 正在 
查找 的 信息 。 在 我 们 的 例子 中 ， 第 一 台 服 务 器 联系 了 (而 不 是 告诉 我 们 去 联系 ) 由 美国 网 络 
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地 址 注册 管理 组 织 (ARIN) 维护 的 8 台 名 称 服务 器 之 一 ， 它 可 以 对 以 169 开始 的 IPv4 地 址 


授权 。 如 果 我 们 联系 这 些 服务 器 中 的 一 个 ， 我 们 发 现 对 于 81.131.229.169.in-addr.arpa 的 PTR 
查询 给 出 了 以 下 响应 : 


> server w.arin.net 

Default Server: w.arin.net 
Address: 72.52.71. 2 

Default Server: w.arin.net 
Address: 2001:470:la::2 

> 81.131.229.169.in-addr.arpa. 
Server: w.arin.net 

Address: 72.52.71.2 


229.169.in-addr.arpa nameserver = adnsl.berkeley.edu. 
229.169.in-addr.arpa nameserver = phloem.uoregon.edu. 
229.169.in-addr.arpa nameserver = aodnsl.berkeley.edu. 
229.169.in-addr.arpa nameserver = adns2.berkeley.edu. 


这 里 我 们 可 以 推测 ， 拥 有 网 络 前 缀 169.229/16 的 教育 机 构 是 伯克利 大 学 ， 该 大 学 维护 了 三 个 
域名 服务 器 ， 履 盖 了 它 的 in-addr.arpa 空间 ， 并 且 俄 勒 交大 学 还 提供 一 个 副本 。 通 过 继续 联系 
这 些 服务 器 中 的 一 个 ， 我 们 找到 了 答案 (这 次 使 用 Linux 版 本 的 nslookup, ， 输 出 略 有 不 同 ): 


Linux% nslookup 

> set type=ptr 

> server adnsil.berkeley.edu 

Default Server: adnsl.berkeley.edu 
Address: 128.32.136.3#53 

Default Server: adnsl.berkeley.edu 
Address: 2607:f£140:ffff:fffe: :3#53 
> 81.131.229.169.in-addr.arpa. 
Server: adnsl.berkeley.edu 
Address: 128.32.136.3#53 


81.131.229.169.in-addr.arpa name = webfarm.Berkeley.EDU 


这 里 我 们 得 到 所 期 待 的 结果 ， 即 IPv4 地 址 169.229.131.81 的 名 称 为 webfarm.Berkeley. 
EDU. DNS 服务 器 使 用 端口 53， 如 IP 地 址 后 的 #53 所 示 。 使 用 UDP/IPv4 (相对 于 UDP/ 
IPv6 ) 访问 DNS 仍然 可 以 通过 使 用 “四 A” (AAAA) DNS 记录 提供 IPv6 地 址 的 映射 ， 因 为 
我 们 可 以 看 到 服务 器 的 IPv6 地 址 是 2607:f140:ffff:fffe::3， 从 输出 来 看 这 是 很 显然 的 。 

如 果 没 有 DNS 树 的 单独 分 支 来 处 理 地 址 到 名 称 的 翻译 ， 基 本 上 就 没有 办 法 完成 逆向 翻 
译 ， 除 非 从 树 根 开 始 尝试 每 个 顶级 域名 。 鉴 于 互联 网 的 当前 规模 ， 这 显然 是 不 合理 的 选择 。 
in-addr.arpa 解决 方案 是 有 效 的 ， 并 且 还 非常 高 效 ， 虽 然 IPv4/IPv6 地 址 的 逆转 字 节 和 特殊 域 
的 域名 令 人 困惑 。 幸 运 的 是 ， 如 前 所 述 ， 用 户 通常 可 以 避免 输入 或 使 用 它们 。 即 使 是 应 用 程 
序 作者 ， 通 常 也 不 必 操 作 地 址 来 执行 道 向 查询 ， 因 为 库 函 数 (如 C 库 函 数 getnameinfo()) 执 
行 这 项 工作 。 

值得 一 提 的 是 ，PTR 查询 已 经 成 为 全 球 DNS 服务 器 的 一 个 重要 问题 。 考 虑 一 个 家 庭 网 
络 ， 它 使 用 一 类 私有 地 址 前 缀 ， 如 10.0.0.0/8 ( IPv4 ) 或 fc00:/7 ( IPv6 )。 当 一 个 系统 接收 到 
相同 私有 编 址 子 网 的 另 一 个 系统 传人 的 连接 请 求 时 ， 它 可 能 希望 将 源 地 址 解析 为 名 称 ， 并 且 
通过 执行 PTR 查询 来 完成 。 如 果 查 询 没有 得 到 本 地 DNS 服务 器 的 回答 ， 那 么 它 可 能 会 传播 
到 全 球 互联 网 。 出 于 这 个 原因 (以 及 一 些 其 他 原因 )，[RFC6303] 指定 本 地 名 称 服务 器 一 一 
尤其 是 那些 连接 到 互联 网 且 使 用 私有 卫 地 址 的 网 络 中 运行 的 服务 器 ， 为 在 [RFC1918] 和 
[RFC4193] 中 为 IPv4 和 IPv6 定义 的 私有 地 址 空间 提供 PTR 映射 ( 即 分 别 为 IN-ADDR.ARPA 
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All D.F.IP6.ARPA), 


11.5.6.5 ”无 类 别 in-addr.arpa 委托 

当 组 织 加 和 互联网， 并 获得 授权 来 填充 部 分 DNS 名 称 空间 时 ， 它 们 往往 也 获得 与 它们 
互联 网 上 的 IPv4 地 址 相对 应 的 部 分 in-addr.arpa 名 称 空间 的 授权 。 在 UC 伯克利 分 校 例子 中 ， 
授权 包括 网 络 前 级 169.229/16， 使 用 旧 的 术语 ， 即 为 “B 类 ”网 络 号 169.229。 因 此 ，UcC 伯 
克利 分 校 预计 会 使 用 名 称 以 229.169.in-addrarpa 结尾 的 PTR 记录 来 填充 部 分 DNS 树 。 分 配 
给 该 组 织 的 地 址 前 缀 是 以 前 的 A、B 或 C 类 样式 时 ， 这 会 工作 得 很 好 ， 这 些 旧 的 分 类 中 位 数 
是 8 的 整数 倍 。 然 而 ， 现 在 许多 组 织 有 大 于 24 位 或 大 于 16 (但 少 于 24) 位 的 前 缀 长度。 在 
这 些 情况 下 ， 地 址 范围 就 不 易 写 为 IP 地 址 的 简单 逆转 形式 。 相 反 ， 一 些 传输 网 络 前 级 长度 
的 方法 也 必须 包括 在 内 。 

[RFC2317] 给 出 了 实现 的 标准 方法 ， 即 添加 前 缀 长 度 到 逆转 后 的 字 节 组 中 ， 并 使 用 它 作 
为 域名 中 的 第 一 个 标签 。 例 如 ,假设 一 个 站 点 分 配 的 前 缀 为 12.17.136.128/25， 即 包含 128 
个 地 址 的 前 级 。 根 据 [RFC2317]， 应 提供 两 种 类 型 的 记录 。 首 先 ， 按照 下 列 方式 ， 为 形式 为 
X.136.17.12.in-addr.arpa (其 中 外 至 少 为 128 且 不 超过 255) 的 每 一 个 名 称 创建 一 个 CNAME 
RR， 可 能 由 站 点 的 ISP 维护 : 

128.136.17.12.in-addr.arpa. canonical name = 

128.128/25.136.17.12.in-addr.arpa. 


129.136.17.12.in-addr.arpa. canonical name = 
129.128/25.136.17.12.in-addr.arpa. 


255.136.17.12.in-addr.arpa. canonical name = 
255.128/25.136.17.12.in-addr.arpa. 


这 里 我 们 可 以 看 到 网 络 前 级 是 如 何 使 用 域名 中 第 二 个 标签 相关 的 “/” 符 号 编码 的 (在 
这 个 例子 中 )。 这 些 条 目 通 常 放 在 ISP 处 ， 人 允许 对 于 非 字 节 对 齐 地 址 范围 的 委托 。 在 这 个 例 
子 中 ， 客 户 现在 能 够 为 区 域 128.128/25.136.17.12.in-addr.arpa 提供 映射 了 。 我 们 可 以 按 以 下 
方式 跟踪 委托 : 


C:\> nslookup 

Default Server: gw 

Address: 10.0.0.1 

> server f.in-addr-servers.arpa 

Default Server: f.in-addr-servers.arpa 

Addresses: 193.0.9.1 

> set type=ptr 

> 129.128/25.136.17.12.in-addr.arpa. 

Server: f.in-addr-servers.arpa 

Address: 193.0.9.1 

12.in-addr.arpa nameserver = dbru.br.ns.els-gms.att.net 
12.in-addr.arpa nameserver = cbru.br.ns.els-gms.att.net 
12.in-addr.arpa nameserver = cmtu.mt.ns.els-gms.att.net 
12.in-addr.arpa nameserver = dmtu.mt.ns.els-gms.att.net 
> server dbru.br.ns.els-gms.att.net. 

Default Server: dbru.br.ns.els-gms.att.net 

Address: 199.191.128.106 


> 129.128/25.136.17.12.in-addr.arpa. 
128/25.136.17.12.in-addr.arpa nameserver = ns2.intel-research.net 


128/25.136.17.12.in-addr.arpa nameserver= nsl.intel-research.net 


> server nsi.intel-research.net. 
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Server: nsl.intel-research.net 
Address: 12.155.161.131 
> 129.128/25.136.17.12.in-addr.arpa. 


129.128/25.136.17.12.in-addr.arpa 
name = dmz.slouter.seattle.intel-research.net 

128/25.136.17.12.in-addr.arpa 

nameserver = bldmzsvr.berkeley.intel-research.net 
128/25.136.17.12.in-addr.arpa 

nameserver = sldmzsvr.intel-research.net 
bldmzsvr.berkeley.intel-research.net internet address = 12.155.161.131 
sldmzsvr.intel-research.net internet address = 12.17.136.131 


在 这 个 例子 中 ， 我 们 希望 找 出 与 IPv4 地 址 12.17.136.129 相关 的 主机 名 称 。 我 们 已 
经 看 到 ， 它 有 一 个 CNAME RR 指向 规范 名 称 129.128/25.136.17.12.in-addrarpa.。 我 们 
指示 解析 器 使 用 一 台 根 服务 器 (F)， 并 设置 查询 类 型 为 PTR RR. BI, 我们 请 求解 析 
129.128/25.136.17.12.inaddr.arpa.。 根 名 称 服务 器 没有 该 信息 ， 它 不 执行 递归 ， 所 以 它 返 回 域 
12.in-addr.arpa. 的 授权 服务 器 的 名 称 。 选 择 它们 之 一 (DBRU)， 再 次 尝试 解析 我 们 的 问题 。 
这 一 次 我 们 发 现 两 个 域名 服务 器 (nsl 和 ns2 )。 选 择 其 中 之 一 ， 我 们 能 够 解析 该 PTR 请 求 。 
解析 出 的 名 称 为 dmz.slouter.seattle.intel-research.net。 


11.5.6.6 PUR (SOA) 记录 

在 DNS 中 ， 每 个 区 域 有 一 个 授权 记录 ， 使 用 称 为 授权 启动 (SOA) 的 RR 类 型 。 这 些 
记录 提供 部 分 DNS 名 称 空间 和 服务 器 之 间 的 授权 联系 ， 该 服务 器 允许 对 地 址 和 其 他 信息 进 
行 查询 以 提供 区 域 信息 。SOA RR 用 于 识别 主机 的 名 称 ， 提 供 官 方 永 久 性 数据 库 、 负 责 方 的 
e-mail 地 址 (“.” 用 来 代替 @)、 区 域 更 新 参数 和 默认 TTL. BRA TTL 应 用 到 区 域 中 的 RR, 
不 用 为 每 个 RR 指定 TTL 值 。 | 

区 域 更 新 参数 包括 一 个 序列 号 、 更 新 时 间 、 重 试 时 间 和 终止 时 间 。 每 当 要 改变 区 域内 容 
时 ,序列 号 通常 由 网 络 管理 员 增加 (至少 1 )。 辅 助 服务 器 使 用 它 来 确定 是 否 应 该 启动 区 域 传 
输 ( 当 它 们 没有 序列 号 最 大 的 区 域内 容 的 副本 时 )。 更 新 时 间 告 诉 辅 助 服务 器 ， 在 从 主 服务 器 
检查 SOA 记录 之 前 需要 等 待 的 时 间 以 及 它 的 版 本 号 ， 以 确定 是 否 需 要 区 域 传输 。 重 试 时 间 
和 终止 时 间 是 在 区 域 传 输 失败 的 情况 下 使 用 的 。 重 试 时 间 值 给 出 辅助 服务 器 重 试 前 需要 等 待 
的 时 间 ( 秒 )。 终 止 时间 是 辅助 服务 器 在 放弃 之 前 保持 重 试 区 域 传输 的 上 限 ( 秒 )。 如 果 它 放 
弃 了 ， 这 样 的 服务 器 停止 响应 对 该 区 域 的 查询 。 一 般 情况 下 ,一 个 区 域 可 以 包含 混合 的 IPv4 
All IPv6 数据 ， 并 可 以 使 用 任意 版 本 的 耻 来 访问 。 在 这 个 例子 中 ， 我 们 使 用 IPv6 (使 用 只 有 
IPv6 的 Windows 主机 上 的 nslookup): 


C:\> nslookup 
Default Server: gw 
Address: fe80::204:5aff:fe9f:9e80 


> set type=soa 
> berkeley.edu. 
Server: gw 
Address: fe80::204:5aff:fe9f:9e80 


Non-authoritative answer: 

berkeley.edu 
primary name server = ns-masterl.berkeley.edu 
responsible mail addr = hostmaster.berkeley.edu 
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serial = 2009050116 

refresh = 10800 (3 hours) 

retry = 1800 (30 mins) 

expire = 3600000 (41 days 16 hours) 
default TTL = 300 (5 mins) 


> server adnsl.berkeley.edu. 

Default Server: adnsl.berkeley.edu 

Addresses: 2607:£140:ffff:fffe::3 
7 128.32.136.3 


> berkeley.edu. 

Server: adnsl.berkeley.edu 

Addresses: 2607:£140:ffff:fffe::3 
128.32.136.3 


berkeley.edu 
primary name server = ns-masterl.berkeley.edu 
responsible mail addr = hostmaster.berkeley.edu 
serial = 2009050116 


refresh = 10800 (3 hours) 
retry = 1800 (30 mins) 
expire = 3600000 (41 days 16 hours) 


default TTL = 300 (5 mins) 


berkeley.edu nameserver = ns.v6.berkeley.edu 

berkeley.edu nameserver = aodnsl.berkeley.edu 

berkeley.edu nameserver = adns2.berkeley.edu 

berkeley.edu nameserver = phloem.uoregon.edu 

berkeley.edu nameserver = adnsl.berkeley.edu 

berkeley.edu nameserver = ucb-ns.NYU.edu 

ns.v6.berkeley.edu internet address = 128.32.136.6 

ns.v6.berkeley.edu AAAA IPv6 address = 2607:f£140:ffff:fffe::6 

adns1.berkeley.edu internet address = 128.32.136.3 

adnsl.berkeley.edu AAAA IPv6 address = 2607:f£140:ffff:fffe::3 

adns2.berkeley.edu internet address = 128.32.136.14 

adns2.berkeley.edu AAAA IPv6 address = 2607:f£140:ffff:fffe::e 

aodns1.berkeley.edu internet address = 192.35.225.133 

aodns1.berkeley.edu AAAA IPv6 address = 
2607:£010:3£8:8000:214:4fff:fe45:e6a2 

phloem.uoregon.edu internet address = 128.223.32.35 

phloem. uoregon.edu AAAA IPv6 address = 2001:468:d01:20::80d£:2023 


这 里 我 们 可 以 看 到 ， 我 们 不 仅 收 到 SOA 记录 ， 而 且 也 收 到 了 6 个 授权 域名 服务 器 的 列 
表 ， 以 及 其 中 5 个 (NYU 服务 器 的 地 址 没有 给 出 ， 因 为 NYU.edu 的 胶 记 录 可 能 在 由 不 同 服 
务 器 支持 的 不 同 的 区 域 里 ) 的 IPv4/IPv6 地 址 〈 胶 记录 )。 由 于 这 是 我 们 已 经 看 到 的 更 多 有 趣 
的 响应 中 的 一 个 ， 让 我 们 看 一 下 与 发 送 到 授权 名 称 服务 器 adns1.berkeley.edu 的 请 求 相对 应 
的 分 组 内 容 ( 见 图 11-14). 

此 记录 包含 两 个 分 组 ， 我 们 已 选择 显示 答复 ， 它 是 两 个 中 更 引 人 关 注 的 。 一 个 SOA RR 
查询 从 本 地 系统 的 全 球 范畴 的 IPv6 地 址 2001:5c0:1101:ed00:5571:5f81:e0a6:4978 发 送 到 主 
机 2607:f140:ffff:fffe::3 (adns1.Berkeley.EDU)。 响 应 在 一 个 总 长 度 为 491 字 节 (负载 长 度 字 
段 是 451 ) 的 IPv6 数据 报 中 运载 。 该 特殊 分 组 包含 IPv6 头 部 ( 40 字 节 )、UDP 头 部 (8 字 节 ) 
以 及 DNS 消息 (443 字 节 )。DNS 消息 包含 1 个 问题 、1 个 答案 、6 个 授权 RR 和 10 个 附加 
的 RR。 

问题 区 段 包含 标签 berkeley 和 edu, 18 个 字 节 长 。 回 答 区 段 包含 前 面 描述 过 的 berkeley. 
edu 域名 的 相关 信息 ， 并 且 由 于 问题 区 段 的 内 容 ， 它 能 够 利用 压缩 标签 。 该 区 段 的 总 长 度 是 
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58 字 节 。 授 权 区 段 包含 6 个 识别 名 称 服务 器 的 NS 记录 。 该 信息 另 需 135 字 节 。 人 额外 信息 区 
段 包 括 5 个 A 记 录 和 5 个 AAAA 记 录 ， 共 220 个 字 节 。 每 个 AAAA 记录 的 RDATA 字段 的 
长 度 为 16 字 节 ， 因 此 ， 尽 管 IPv6 地 址 可 以 以 带 有 “ ::” 的 文本 形式 来 节省 空间 ， 但 是 它 在 
分 组 中 并 非 如 此 编码 。 相 反 ， 使 用 了 全 部 的 128 位 地 址 。 


11.5.6.7 ”邮件 交换 (MX) 记录 

MX 记录 提供 了 邮件 交换 器 (mail exchanger) 的 名 称 ， 邮 件 交 换 器 为 在 简单 邮件 传输 协 
I (SMTP) [RFC5321] 中 愿意 代表 与 域名 相关 的 用 户 接收 传人 电子 邮件 的 主机 。 当 互联 网 仍 
在 发 展 时 ， 一 些 站 点 没有 固定 连接 ， 而 是 拨号 连接 到 具有 固定 互联 网 连接 的 主机 。 在 这 样 的 
情况 下 ， 当 电子 邮件 在 传输 过 程 中 目的 地 可 能 从 网 络 上 断 开 ， 因 此 另 一 台 主 机 必须 保留 该 邮 
件 ， 直 到 目的 地 连接 上 为 止 。 这 是 在 DNS 中 包含 MX 记录 的 一 个 原因 ， 即 使 真实 目的 地 不 
可 用 ， 也 允许 发 送 方 主机 将 电子 邮件 交付 给 中 介 (“ 中 继 服务 器 ” ) WE MX 记录 仍然 在 使 
用 ， 邮 件 代理 更 愿意 将 电子 邮件 交付 给 MC 记录 中 列 出 的 与 特定 域名 相关 的 主机 。 

MX 记录 包括 优先 级 (preference) 值 ， 因 此 对 于 一 个 特定 的 域名 ， 多 个 MX 记录 可 以 
同时 出 现 。 优 先 级 值 允许 发 送 代理 按 优 先 顺 序 ( 较 小 的 是 更 可 取 的 ) 排序 主机 ， 以 决定 哪个 
主机 用 作 电 子 邮 件 的 目的 地 。 例 如 ， 我 们 可 以 再 次 使 用 host 命令 查询 DNS 中 与 域名 cs.ucla. 
edu 相关 的 MX 记录 : 


Linux% host -t MX cs.ucla.edu ns3.dns.ucla.edu 
Using domain server: 

Name: ns3.dns.ucla.edu 

Address: 2607:£600:8001:1::ff:fe01:35#53 
Aliases: 


cs.ucla.edu mail is handled by 13 Pelican.cs.ucla.edu. 
cs.ucla.edu mail is handled by 3 Moa.cs.ucla.edu. 
cs.ucla.edu mail is handled by 13 Mailman.cs.ucla.edu. 


在 这 里 我 们 可 以 看 到 ， 邮 寄 到 person@cs.ucla.edu 的 电子 邮件 由 在 DNS 中 配置 的 三 台 
邮件 服务 器 之 一 处 理 。 所 有 的 这 些 邮件 服务 器 是 cs.ucla.edu 域 的 一 部 分 ， 但 一 般 情 况 下 ， 邮 
件 服务 器 不 必 与 它们 正在 处 理 的 电子 邮件 有 相同 的 域 。 这 三 个 服务 器 可 分 为 两 部 分 : 一 部 分 
优先 级 为 3， 一 部 分 优先 级 为 13。 优 先 级 编号 较 小 的 服务 器 是 首选 的 ， 所 以 发 送 方 首先 尝试 
Moa.cs.ucla.edu。 如 果 失 败 ， 它 会 随即 选择 Pelican 或 Mailman 进行 尝试 。 

很 可 能 MX 记录 的 目标 主机 都 不 可 达 。 这 是 一 种 错误 状态 。 也 可 能 现在 没有 MX 记录 ， 
但 有 该 域名 的 CNAME, A 或 AAAA 记录 。 如 果 有 一 个 CNAME 记录 ，CNAME 的 目标 是 用 
来 代替 原来 的 域名 。 如 果 有 A 或 AAAA 记录 ， 邮 件 代理 可 以 连接 到 这 些 地 址 。 每 个 被 认为 
其 优先 级 为 0 ( 称 为 隐 式 (implicit) MX). MX 记录 目标 必须 是 解析 A AAAA 记录 的 域名 ; 
它们 不 能 指向 CNAME[RFC5321]。 


11.5.6.8 ”打击 垃圾 邮件 : 发 送 方 策略 框架 (SPF) 和 文本 (TXT) 记录 

对 于 发 出 的 电子 邮件 ，MX 记录 人 允许 DNS 帮助 确定 邮件 中 继 和 域名 服务 器 的 名 称 。 最 
近 ，DNS 已 被 接收 邮件 代理 利用 ， 以 确定 哪些 中 继 或 发 送 邮 件 服务 器 被 授权 以 发 送 来 自 特定 
域名 的 邮件 。 这 被 用 来 帮助 打击 垃圾 邮件 (不 需要 的 电子 邮件 )， 这 些 垃圾 邮件 由 假装 成 经 授 
权 的 邮件 发 送 方 的 流氓 邮件 代理 发 送 。 

邮件 服务 器 收 到 的 电子 邮件 被 拒绝 、 存 储 或 转发 到 另 一 个 邮件 服务 器 。 拒 绝 发 生 的 原因 
有 很 多 ， 如 协议 错误 或 接收 方 缺乏 可 用 存储 空间 。 因 为 发 送 方 邮件 客户 端 不 是 发 送 电子 邮件 
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的 合适 方 也 可 以 被 拒绝 。 这 种 能 力 由 发 送 方 策略 框架 (Sender Policy Framework, SPF) 支持 ， 
并 记录 在 [RFC4408] 中 ， 这 是 一 个 实验 性 的 RFC。 还 有 另外 一 个 称 为 发 送 方 ID (Sender ID) 
[RFC4406] 的 框架 ， 它 结合 了 SPF 的 功能 。 它 也 是 实验 性 的 ， 但 是 没有 广泛 部 署 。 

SPF 的 第 一 个 版 本 使 用 DNS TXT ak SPF (类 型 99 ) 资源 记录 。 由 域 拥 有 者 建立 记录 ， 
并 在 DNS 中 发 布 ， 以 指明 哪些 服务 器 被 授权 发 送 来 自 该 域 的 邮件 。 虽 然 在 某 种 意义 上 SPF 
记录 类 型 是 一 个 更 “合适 ”携带 SPF 相关 信息 的 地 方 ， 但 是 一 些 DNS 客户 端的 实现 没有 适 
当地 处 理 SPF 记录 ， 所 以 为 了 避免 这 一 情况 ， 使 用 TXT 记录 。TXT 记录 保存 与 域名 相关 的 
简单 的 字符 串 。 从 历史 上 看 ， 它 们 保留 人 类 理解 的 字符 串 ， 以 帮助 调试 或 确定 拥有 者 或 域 的 
位 置 。 现 在 ， 它 们 通常 由 程序 处 理 ， 如 SPF 应 用 程序 。 

SPF 支持 丰富 的 语法 来 表达 一 些 准则 ， 这 些 准则 用 于 匹配 传人 的 邮件 信息 和 承载 它 的 
连接 的 详细 情况 。 例 如 ，UC 伯克利 分 校 使 用 以 下 的 SPF 项 (为 清晰 起 见 ， 有 些 行 已 经 隐藏 
起 来 ): 


Linux% host -t txt berkeley.edu 

berkeley.edu descriptive text 
"v=spfl ip4:169.229.218.128/25 ip6:2607:F140:0:1000::/64 
include:outboundmail.convio.net ~all" 


在 这 个 例子 中 ， 所 提供 的 信息 是 对 SPF 版 本 1 的 (通过 版 本 字段 中 v = spfl 字符 串 来 说 
明 )， 并 且 使 用 TXT RR。 当 接收 邮件 代理 接收 到 据 称 来 自 于 域 berkeley.edu 的 电子 邮件 时 ， 
EM berkeley.edu 域 执行 TXT 类 型 记录 的 DNS 查询 。 文 本 记录 的 值 包含 匹配 的 准则 ( 称 为 
机 制 (mechanism)) 和 其 他 信息 ( 称 为 修饰 符 (modifiers) )。 在 每 个 机 制 之 前 是 一 个 限定 符 
( qualifier)， 用 以 确定 匹配 机 制 的 结果 。 处 理 SPF 记录 使 用 称 为 check_host0 的 函数 。 该 函 
数 对 各 种 机 制 进行 评 佑 ， 当 遇 到 第 一 个 匹配 的 机 制 时 完成 。 最 终 ，check_host() 提供 以 下 返 
回 值 之 一 : None, Neutral, Pass, Fail, SoftFail, TempError 和 PermError。None il Neutral 
返回 值 说 明 没有 信息 可 用 ， 或 是 有 信息 可 用 但 是 没有 声称 的 结果 。 这 些 按 完 全 相同 的 方式 
处 理 。Pass 说 明 一 个 匹配 将 如 下 一 段 描述 的 。Fail 说 明 发 送 方 主机 没有 被 授权 从 该 域 发 送 邮 
件 。SoftFail 有 点 模糊 ， 但 根据 [RFC4408]， 它 被 视 为 “ 介 于 “Fail” 和 “ Neutral ”之 间 ”。 
TempError 返回 值 表示 某 些 可 能 减弱 的 暂时 性 失败 (如 通信 故障 )。PermError 返回 值 表示 
SPF 的 配置 中 存在 问题 ， 通 常 是 因为 有 缺陷 的 域 TXT 或 SPF 记录 。 

在 例子 中 ， 自 从 左 向 右 阅 读 ， 字 符 串 v=spfl 是 一 个 修饰 符 ， 说 明 SPF 的 版 本 是 1。ip4 
机 制 说 明 SMTP 发送 方 拥有 一 个 前 缀 为 169.229.218.128/25 的 IPv4 地 址 。ip6 机制 说 明 
发 送 方 主机 的 IPv6 地 址 前 缀 为 2607:F140:0:1000::/64。 最 后 ，include 机 制 通过 引用 包含 
outboundmail.convio.net TXT 记录 : 


Linux% host -t txt outboundmail.convio.net 
outboundmail.convio.net descriptive text 
"v=spfl +ip4:66.45.103.0/25 +ip4:69.48.252.128/25 
+ip4:209.163.168.192/26 ~all" 
outboundmail.convio.net descriptive text 
"“spf2.0/pra 
+ip4:66.45.103.0/25 +ip4:69.48.252.128/25 
+ip4:209.163.168.192/26 ~all" 


注意 ， 这 些 TXT 记录 均 适 用 于 SPF 和 发 送 方 ID (在 版 本 区 段 使 用 值 spf2.0/pra)。 第 一 
条 记录 由 SPF 使 用 “+” 限 定 符 表 明 匹 配 结果 为 Pass。 任 何 无 限定 符 的 机 制 假定 拥有 “十 ” 
限定 符 。 其 他 可 能 的 限定 符 包 括 - (Fail), ~ (Soft Fail) 和 ? (Neutral)。 如 果 没有 匹配 机 制 
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产生 Pass 结果 ， 最 终 机 制 (all) 匹配 任何 条 件 。all 准则 之 前 的 波浪 符号 ( ~ ) 说 明 如 果 all 
是 唯一 匹配 的 机 制 ， 那 么 应 该 生成 SoftFail 返回 值 。 软 故障 的 具体 处 理 方式 依赖 于 接收 电子 
邮件 的 软件 。 请 注意 ， 即 使 有 SPF 的 支持 ， 验 证 也 只 由 发 送 方 域 和 系统 提供 ， 而 不 是 发 送 用 
户 。 在 第 18 章 我 们 将 着 眼 于 DKIM， 它 提供 类 似 SPF 的 功能 ， 但 使 用 加 密 进 行 身 份 验证 。 


11.5.6.9 选项 (OPT) 伪 记 录 

如 前 所 述 ， 连 同 EDNS0 也 定义 了 特殊 的 OPT 伪 RR[RFC2671]。 就 某 种 意义 而 言 ， 它 
是 “ 假 的 "， 它 仅 适用 于 单一 DNS 消息 的 内 容 ， 而 且 不 是 常见 的 DNS RR 数据 。 因 此 ，OPT 
RR 不 被 缓存 、 转 发 或 持续 存储 ， 它 们 可 能 在 DNS 消息 中 只 出 现 一 次 (或 不 出 现 )。 如 果 出 
现在 DNS 消息 中 ， 可 以 在 额外 消息 区 段 中 发 现 它 。 

一 个 OPT RR 包含 10 个 字 节 的 固定 部 分 ， 随 后 是 一 个 可 变 部 分 。 固 定 部 分 包括 表示 
RR 类 型 (41 ) 的 16 位 ， 表 示 UDP 负载 大 小 的 16 位 ， 构 成 一 个 扩展 的 RCODE 字段 和 Flag 
域 的 32 位 ， 以 及 指出 以 字 节 为 单位 的 可 变 部 分 大 小 的 16 位 。 这 些 字 段 与 传统 的 RR 中 的 
Name, Type, Class, TTL 和 RDLEN 有 相同 的 相对 位 置 关 系 ( 见 图 11-8 )。OPT RR 在 名 字 
字段 使 用 空域 名 (0 个 字 节 )。 扩 展 RCODE 和 Flags 域 (32 位 ， 对 应 于 图 11-8 中 的 TTL 字 
E) 被 再 分 成 两 个 8 位 域 ， 一 个 用 于 保留 额外 的 8 个 高 位 ， 扩 充 图 11-3 中 的 RCODE 字段 ， 
一 个 为 版 本 字段 (当前 设置 为 0 表示 EDNSO). RIAA 16 位 尚未 定义 ， 必 须 为 0。 额外 的 8 
位 提供 了 一 个 可 能 的 DNS 错误 类 型 的 扩展 集 ， 这 些 值 在 表 11-4 中 给 出 。( 注 意 值 16 由 两 个 
不 同 的 RFC 定义 。) 


表 11-4 扩展 RCODE 值 。 大 部 分 被 用 来 支持 安全 扩展 


fi 描述 和 目的 
ET 

16 IR TSIG 签名 ( 见 第 18 章 ) 

17 坏 TSIG 密 钥 ( 见 第 18 章 ) 

18 IK TSIG 签名 (时 间 问 题 ; 见 第 18 章 ) 
19 坏 TKEY 模式 ( 见 第 18 章 ) 

20 重复 密 钥 名 称 ( 见 第 18 章 ) 

21 不 支持 的 算法 ( 见 第 18 章 ) 


正如 我 们 已 经 提 到 的 ，OPT RR 包含 可 变 长 度 的 RDATA 字段 。 该 字段 用 来 存放 属性 - 
值 对 的 扩展 列表 。 当 前 属性 、 意 义 和 定 义 的 RFC 的 集合 都 由 IANA[DNSPARAMS] 维护 。 一 
个 称 为 NSID ( EDNS 选项 代码 3 ) [RFC5001] 的 选项 ， 表 示 一 个 响应 DNS 服务 器 的 特殊 标 
识 值 。 该 值 的 格式 没有 标准 定义 ， 但 是 DNS 服务 器 的 系统 管理 员 可 以 配置 。 任 播 地 址 用 于 
确定 一 组 服务 器 时 ， 这 种 功能 可 能 是 很 有 用 的 。NSID 能 够 使 用 非 发 送 方 的 IP 地 址 的 一 个 值 
识别 出 一 台 特 定 的 响应 服务 器 。 当 我 们 在 第 18 章 查看 DNSSEC 时 ， 将 看 到 更 多 OPT RR 和 
EDNS0 用 法 的 例子 。 


11.5.6.10 ”服务 记录 
[RFC2782] 定义 了 服务 (SRV) 资源 记录 。SRV RR 推广 了 MX 记录 的 格式 ， 以 描述 主机 、 
协议 和 用 于 连接 特定 服务 的 端口 号 。SRV RR 的 一 般 结构 如 下 : 


_Service._Proto.Name TTL IN SRV Prio Weight Port Target 
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Service 标识 符 是 一 个 服务 的 正式 名 称 。Proto 标识 符 是 用 于 访问 服务 的 传输 协议 ， 通 常 
是 TCP 或 UDP。TTL 值 是 一 个 传统 RR AY TTL, IN 和 SRV 分 别 表明 互联 网 类 和 SRV RR 类 
型 。Prio 值 是 一 个 16 位 的 无 符号 值 ， 与 MX 记录 中 的 优先 权 值 作用 差不多 ( 越 小 的 的 数字 
表示 越 高 的 优先 级 )。Weight 值 用 于 在 优先 级 相等 的 几 个 RR 中 做 出 选择 。 基 本 思路 是 ， 权 
值 用 作 加 权 概 率 来 为 负载 平衡 选择 特定 的 条 目 ， 因 此 较 大 的 权 值 表明 更 大 的 选择 概率 。Port 
是 TCP 或 UDP (或 其 他 传输 协议 的 ) 端口 号 。Target 是 提供 服务 的 目标 主机 的 域名 。Name 
标识 符 是 一 个 包含 域 ， 其 中 可 以 找到 一 个 特定 的 服务 。SRV 记录 的 目的 之 一 是 确定 何 时 在 一 
个 域 中 的 多 个 单独 的 服务 器 上 支持 相同 的 服务 。 

例如 ， 如 果 一 个 客户 想 要 使 用 TCP 协议 确定 域 example.com 中 ladap 服务 可 用 的 主机 
和 端口 ， 它 会 使 用 域名 _ldap. tcp.example.com 执行 SRV 记录 的 查询 。 这 里 是 一 个 真实 的 
例子 : 


Linux% host -t srv _ldap._tcp.openldap.org 
_idap._tcp.openldap.org has SRV record 0 0 389 www.openldap.org. 


在 这 个 例子 中 ， 我 们 通过 TCP， 在 域 openldap.org 中 查找 提供 轻 量 级 目录 访问 协议 
(LDAP) 服务 的 服务 器 。 我 们 发 现 ， 可 以 使 用 TCP 端口 389 (默认 的 LDAP 端口 )， 在 服务 器 
www.openldap.org 上 访问 。Priority 和 Weight 值 为 0， 因 为 没有 替代 的 服务 器 。 

[RFC2782] 没有 为 SRV Service 和 Proto 值 指 定 一 个 新 的 IANA 注册。 所以， 默认 情况 
下 ， 和 名 称 与 IANA 的 “服务 名 称 和 传输 协议 端口 ”[ISPR] 注册 中 保存 的 名 称 相对 应 , Proto 值 
为 tcp 或 udp， 但 也 有 少数 例外 。[RFC5509] 使 用 以 下 的 SRV Service 和 Proto 名 称 为 基于 
SIP 的 在 场 和 即时 通信 建立 约定 : im. sip _pres. sip。[RFC6186] 为 电子 邮件 用 户 代 理 定 
XT FER SRV Service 名 称 ， 以 便 容易 地 发 现 IMAPS、SMTP、IMAP 和 POP3 服务 器 的 联 
系 信息 〈 当 设置 电子 邮件 客户 端 时 ， 通 常 前 两 个 是 优先 考虑 的 ) : _submission，imap， imaps， 
_pop3， pop3s。 虽 然 [RFC6186] 没有 要 求 这 些 名 称 使 用 TCP 作为 相应 的 Proto 值 ， 但 是 这 
是 目前 唯一 的 真正 选项 。 例如， 用 户 配 置 一 个 新 的 邮件 用 户 代 理 (MUA， 本 质 上 是 一 个 电 
子 邮件 程序 )， 可 能 只 指定 域名 example.com。 然 后 MUA 实现 可 能 至 少 为 _submission._tcp. 
example.com #il_imaps._tcp.example.com 执行 DNS 查询 。 


11.5.6.11 名 称 授权 指针 记录 

当 DNS 支持 动态 委托 发 现 系统 (DDDS) [RFC3401] 时 ， 使 用 名 称 授权 指针 (NAPTR ) 
RR 类 型 。 一 个 DDDS 一 般 是 抽象 的 算法 ， 它 将 动态 检索 字符 串 转换 规则 应 用 于 应 用 程序 提 
供 的 字符 串 ， 并 经 常 使 用 结果 定位 资源 。 每 个 DDDS 应 用 为 其 特定 的 使 用 情况 定制 一 般 的 
DDDS 规则 的 操作 。 一 个 DDDS 包括 一 个 规则 数据 库 和 一 组 用 于 形成 字符 串 的 算法 ， 该 字 
符 串 和 数据 库 一 起 产生 输出 字符 串 。DNS 就 是 这 样 一 个 数据 库 [RFC3403]， 在 其 中 NAPTR 
资源 记录 类 型 用 来 保存 转换 规则 。 一 个 这 样 的 DDDS 应 用 程序 已 经 被 定义 用 来 和 DNS 一 起 
处 理 跨国 电话 号 码 ， 并 使 用 ENUM ( 见 11.5.6.12 节 ) 将 它们 转换 为 标准 的 统一 资源 标识 符 
(URI) 格式 [RFC3986]。 

在 一 个 DDDS 中 ， 算 法 [RFC3402] 指示 如 何 通 过 数据 库 中 包含 的 规则 处 理应 用 唯一 字 
符 囊 (AUS)。 结 果 可 以 是 一 个 终结 字符 囊 (terminal string)( 完 整 的 输出 ) 或 男 一 个 ( 非 终结 ) 
字符 串 ， 它 用 于 检索 应 用 到 AUS 的 另 一 个 规则 。 总 之 ， 该 集合 形成 了 一 个 强大 的 字符 串 重 
写 系统 ， 可 用 于 编码 有 足够 正则 语法 的 几乎 任意 串 。 该 算法 的 本 质 如 图 11-15 所 示 。 
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图 11-15 所 示 的 过 程 ， 开 始 时 将 “第 一 条 众所周知 的 规则 ”(first Well-Known Rule) 应 用 
于 AUS，AUS 对 于 每 个 应 用 是 唯一 的 。 
结果 形成 一 个 关键 字 ， 用 于 从 数据 库 中 
检索 男 一 个 规则 。 规 则 是 字符 串 重 写 模 
式 和 标志 ， 该 标志 应 用 于 AUS， 但 是 
从 来 不 应 用 于 重 写字 符 串 的 结果 。 它 工 
傅 的 特定 方式 依赖 于 应 用 程序 ， 但 规则 
通常 是 正则 表达 式 的 替换 ， 类 似 于 使 用 
UNIX sed 程序 [DR97]。 当 使 用 DNS 作 
为 支持 DDDS 的 数据 库 时 [RFC3403], 
这 正 是 我 们 感 兴趣 的 情况 ,关键 字 是 域 
名 ， 规 则 存储 于 NAPTR 资源 记录 中 。 
每 个 NAPTR RR 包含 以 下 字段 : 顺序 、 
优先 级 、 标 志 、 服 务 、 正 则 表达 式 (有 
时 简写 为 Regexp)、 替 换 。 

顺序 字段 是 16 位 无 符号 整数 ， 指 
定 哪 一 个 NAPTR 记录 在 其 他 之 前 使 用 
( 较 小 的 数字 比较 大 的 那些 更 优先 )， 因 
为 DNS 架构 不 保证 任意 特定 资源 记录 
集 的 排序 。 优 先 级 字段 用 来 影响 含有 
相同 顺序 号 的 记录 的 顺序 。 顺 序 字 段 表 
明 在 RR 上 施加 强制 性 的 顺序 ， 而 优先 
级 是 建议 性 的 。 标 志 字段 包含 来 自 集合 图 11-15 DDDS 算法 的 抽象 操作 。 人 允许 非 终结 记录 形 
A ~ Z 和 0 ~ 9 的 单个 字符 的 无 序列 表 成 循环 。 每 次 迭代 都 涉及 应 用 唯一 字符 串 的 
(大 小 写 不 敏感 的 ) 。 使 用 NAPTR 记录 重 写 操作 
的 特定 的 应 用 程序 (例如 ENUM， 将 在 
下 一 节 描 述 )， 定 义 标 志 字 段 的 解释 。 服 务 字 段 由 应 用 程序 定义 ， 用 以 说 明 哪 种 类 型 的 服务 
正在 被 描述 。 正 则 表达 式 字 段 包 含 一 个 替换 表达 式 ， 该 表达 式 应 用 于 AUS 以 形成 另 一 个 服 
务 器 的 标识 ， 用 于 另 一 个 NAPTR 查找 ( 非 终 结 情况 ) 或 输出 字符 串 (终结 情况 )。 替 换 字 段 
(只 有 当 正 则 表达 式 不 存在 时 才 存 在 ) 表示 要 查询 NAPTR 记录 的 下 一 个 服务 器 。 它 被 编码 为 
一 个 独立 的 FQDN (在 DNS 消息 中 没有 使 用 名 称 压缩 )。 因 历史 的 原因 ， 在 NAPTR RR 的 发 
展 过 程 中 ， 这 两 个 最 后 (A) 字段 的 用 途 非 常 相似 。 

为 了 更 好 地 理解 NAPTR 处 理 如 何 与 应 用 程序 一 起 工作 ， 我 们 将 会 简单 地 看 一 下 ENUM 
和 SIP DDDS 应 用 程序 、URIURN DDDS 应 用 程序 ， 以 及 称 为 S-NAPTR 和 U-NAPTR 的 常 
规 NAPTR 的 替代 选择 。 指 定 一 个 DDDS 必须 指定 应 用 程序 的 AUS、 第 一 条 众所周知 的 规 
则 、 期 望 输出 、 有 效 的 数据 库 、 标 志和 服务 参数 。 


11.5.6.12 ENUM 和 SIP 

在 ENUM DDDS[R06] [RFC6116] [RFC6117][RFC5483] 中 ， 将 电话 号 码 映 射 到 URI 
信息 ，AUS 是 一 个 E.164 格式 的 电话 号 码 (最 多 15 个 数字 ， 以 “ +” 字符 开 始 )。 初 始 的 
“+” 字 符 将 ENUM DDS 中 使 用 的 E.164 号 码 和 来 自 其 他 名 称 空间 的 号 码 区 别 开 来 。 第 一 
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个 众所周知 的 规则 ， 首 先 移 除 AUS 中 的 任意 破 折 号 或 其 他 非 数字 字符 。DDDS 的 数据 库 是 
DNS， 关 键 字 是 从 AUS 中 按 如 下 方式 创建 的 域名 : 点 (.) 字符 插 人 到 每 个 数字 之 间 ， 将 结 
果 逆 转 。 然 后 添加 后 缀 .e164.arpa。 例 如 ，E.164 号 码 +1-415-555-1212 将 会 被 转换 为 密 钥 
2.1.2.1.5.5.5.5.1.4.1.e164.arpa。 生 成 的 域名 用 于 查询 NAPTR 记录 。 

最 终 的 输出 可 能 经 过 图 11-15 所 示 DDDS 算法 的 多 个 循环 ， 是 一 个 绝对 的 URI ( 非 相 
对 )。 定 义 的 唯一 标志 是 U 标志 ， 表 明 产 生 一 个 URI 的 终结 规则 。 没 有 任何 标志 说 明 是 非 终 
结 的 规则 ， 有 时 也 称 为 非 终 结 NAPTR ( Non-Terminal NAPTR，NTN )。 服 务 参数 在 NAPTR 
记录 的 Service 字段 中 编码 ， 其 形式 为 E2U+Service， 即 来 自 字 符 串 E2U ( E.164 中 指向 URI 
的 指示 器 ) 加 上 提供 与 该 号 码 相关 的 特定 服务 的 信息 的 Service 名 称 子 域 。 它 们 一 起 形成 了 
enumservice( 枚 举 服务 ) 标识 符 ， 这 样 的 服务 向 IANA [ENUM][RFC6117] 注册 并 且 已 经 创 
建 了 许多 ， 包 含 传真 、 即 时 通信 和 存在 指示 器 的 枚 举 服务 。 

为 了 看 到 这 一 切 是 如 何 工 作 的 ， 我 们 可 以 构造 一 个 对 于 号 码 +420738511111 的 查询 ， 该 
号 码 位 于 捷克 的 俄 斯 特 拉 法 大 学 (为 清晰 起 见 ， 很 多 行 隐 藏 了 ): 


Linuxs host -t naptr 1.1.1.1.1.5.8.3.7.0.2.4.e164.arpa 
1.1.1.1.1.5.8.3.7.0.2.4.e164.arpa has NAPTR record 

50 50 "u" “E2U+sip" "!*\\+(.*)$!sip:\\1l@osu.cz!" . 
1.1.1.1.1.5.8.3.7.0.2.4.e164.arpa has NAPTR record 

100 50 "u" "E2U+sip""!*\\+(.*)$!sip:\\l@cesnet.cz!" . 
1.1.1.1.1.5.8.3.7.0.2.4.e164.arpa has NAPTR record 

200 50 "u" "E2U+h323" "!*\\+(.*)$!h323:\\l@gklext.cesnet.cz!" . 


这 里 我 们 看 到 在 ENUM DDDS 应 用 中 三 个 NAPTR 记录 的 内 容 ， 两 个 用 于 SIP 服务 ， 一 个 
用 于 H.323 服务 ， 它 们 用 于 互联 网 电话 。SIP 条 目的 序列 号 为 50 和 100，H.323 条 目的 序列 
号 为 200， 同 时 显示 了 如 何 使 用 ENUM 和 NAPTR 记录 来 拥有 多 个 与 单一 电话 号 码 相 关 的 服 
务 ， 以 及 NAPTR 记录 的 提供 者 如 何 指出 提供 相同 服务 的 多 个 网 关 的 优先 级 顺序 。 


注意 SIP Æ IETF 指定 的 用 于 信 令 的 协议 ， 因 使 得 多 媒体 客户 端 和 服务 器 的 连接 便 
利 而 特别 流行 。H.323 是 ITU 指定 的 协议 ， 用 于 多 媒体 会 议和 通信 ， 和 包括 一 个 信 令 
子 协议 。 它 广泛 实现 于 电话 会 议 设 备 中 。 本 例 以 及 随后 的 例子 中 ，host 程序 产生 的 
输出 可 以 用 作 如 BIND 的 DNS 服务 器 的 区 域 文 件 的 输入 。 因 此 ,输出 显示 额外 的 转 
义 “\” 字 符 (显示 为 “\\”)， 它 们 在 实际 的 服务 器 提供 的 DNS 响应 中 并 不 存在 。 


为 了 更 好 地 了 解 NAPTR 记录 规则 如 何 应 用 到 AUS, 我 们 将 着 眼 于 前 面 例子 中 的 第 
二 个 SIP 记录 。 执 行 DNS 查询 和 收 到 NAPTR RR 后 ， 出 现在 第 一 个 和 第 二 个 “!” 字 符 
之 间 的 字符 串 用 作 一 个 正则 表达 式 匹 配 和 替换 。 这 样 ， 字 符 串 +420738511111 与 正则 表 
达 式 AHS 相 匹 配 。 根 据 正则 表达 式 匹 配 的 规则 ， 匹 配 成 功 ， 所 以 字符 串 重 写 规则 变 为 
sip:\1@cesnet.cz。 特 殊 变 量 \1 被 与 圆 括号 ( ) 之 间 包 含 的 第 一 个 正则 表达 式 相 匹配 的 子 串 
替换 ， 在 这 种 情况 下 ， 即 为 AUS 中 除了 初始 + 字符 外 的 一 切 。 总 之 ，AUS +420738511111 
转换 成 URI sip:420738511111@cesnet.cz。 

一 旦 此 URI 形成 了 ， 自 然 下 一 步 是 驱动 应 用 联系 一 个 SIP 服务 器 。 然 而 ，SIP 本 身 通过 
不 同 的 传输 协议 运载 ， 因 此 ， 下 一 步 使 用 另 一 个 为 SIP 定制 的 DDDS[RFC3263]。 在 该 应 用 
中 ，NAPTR 记录 包含 的 目标 用 于 识别 应 用 于 执行 SRV 记录 查询 的 域 。 继 续 前 面 的 例子 : 


Linux% host -t naptr cesnet.cz 
cesnet.cz has NAPTR record 200 50 "s" "SIP+D2T" "" sip. _tcp.cesnet.cz. 
cesnet.cz has NAPTR record 100 50 "s" "SIP+D2U" "" _sip._udp.cesnet.cz. 
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这 里 我 们 看 到 了 NAPTR 中 s 标志 的 使 用 ， 表 明 SRV 记录 是 结果 。 没 有 使 用 Regexp F 
段 ， 因 此 结果 是 简单 的 域名 替代 ， 由 Replacement 字段 中 字符 串 给 出 。Service 字段 的 形式 
为 SIP+D2x 或 SIPS+D2x， 其 中 SIP 和 SIPS 分 别 指出 了 SP 协议 和 SP 安全 协议 (TLS ; 
见 第 18 章 ) 的 使 用 , x 是 传输 协议 的 单一 字母 标识 符 : UDP HU, TCP 为 T，SCTP 为 
SI[IRFC4960]。 在 这 个 例子 中 ， 应 用 程序 将 首先 尝试 查找 和 使 用 与 SIP/UDP 对 应 的 SRV 记 
K, 如 果 失 败 了 将 会 向 SIP/TCP 求助 ， 因 为 UDP 条 目 有 较 低 的 优先 级 值 。 


11.5.6.13 URI/URN 解析 

虽然 ENUM 可 能 是 DNS 中 NAPTR 记录 最 成 熟 的 用 法 ， 但 也 有 一 些 DDDS 应 用 定义 为 
解析 URI[RFC3404] 和 称 为 统一 资源 名 称 (Uniform Resource Names, URN) 的 持久 的 、 位 置 
无 关 URI [RFC2141]。 所 有 的 URI (包括 URN) 都 由 一 个 方案 名 称 和 随后 的 符合 针对 该 方案 
的 语义 的 子 串 构成 。 官 方 方 案 的 当前 名 单 由 IANA[URIJ] 维护 。URI 和 URN 应 用 很 相似 ， 因 
此 值得 一 起 考虑 它们 。 对 于 URI/URN DDDS M, AUS 是 一 个 授权 “解析 ”服务 器 正 处 于 
的 URI 或 URN。URI 应 用 程序 的 第 一 个 众所周知 的 规则 是 简单 的 方案 名 称 。 对 于 URN, 为 
名 称 空间 标识 符 (出 现在 urn: 方案 标识 符 后 面 且 下 一 个 冒号 前 面 的 子 串 )。 例 如 ，http://www. 
pearson.com 是 一 个 使 用 方案 (Se HEF) http 的 URI, URN urn:foo:foospace 将 会 使 用 foo 作 
为 第 一 个 关键 字 。 现 在 定义 了 四 种 可 能 的 标志 : S、A、U 和 P。 前 面 的 三 个 是 终结 的 ， 说明 
结果 是 一 个 用 于 分 别 获 取 SRV 记录 、IP 地 址 或 是 URI 的 域名 。P 标志 说 明 DDDS 算法 的 处 
理 过 程 要 被 终止 ， 也 表明 一 些 应 用 程序 指定 的 处 理 开 始 (在 别处 定义 的 )。 所 有 的 这 些 标志 
fe ASEH. IEW ENUM 一 样 ， 没 有 任何 标志 说 明 为 一 个 NTN。 

对 URI/URN DDDS 的 支持 仍 在 不 断 发展 。 如 果 我 们 以 当前 (2011 年 ) 的 目光 看 一 看 
DNS， 可 以 看 到 一 些 方 案 已 经 填充 到 uri.arpa TLD: 


Linux host -t naptr http.uri.arpa 


http.uri.arpa has NAPTR record 0 0 "" "" "I*http://([*%:/?#]*).*S!I\\1!i" . 
Linux? host -t naptr ftp.uri.arpa 
ftp.uri.arpa has NAPTR record 0 0 "" "" "I*ftp://((*:/?#]*).*S!\\11i" . 


Linux host -t naptr mailto.uri.arpa 


mailto.uri.arpa has NAPTR record 0 0 "" "" "!*mailto:(.*)@(.*)SI\\2!i" . 
Linux% host -t naptr urn.uri.arpa 
urn.uri.arpa has NAPTR record 0 0 "" "" “/urn:([{*:]+)/\\1/i" . 


前 三 个 NAPTR 记录 包含 了 重 写 规则 ， 没 有 任何 标志 。 因 此 ， 它 们 本 质 上 表明 ， 应 用 
程序 应 从 相应 的 URI 中 提取 域名 并 继续 DDDS 算法 。 最 后 的 “!” 字 符 后 面 的 i 标 志 说 明 大 
小 写 检查 应 该 以 不 敏感 的 方式 执行 。 例 如 ，mAiLto:person@example.com 被 改写 为 example. 
com。 第 四 个 记录 用 于 提取 URN 名 称 空间 ID 并 继续 处 理 。 对 于 URN, 在 DNS 中 有 很 少 的 
NAPTR 记录 在 urn.arpa 中 设置 (目前 为 两 条 )。 


Linux% host -t naptr pin.urn.arpa 


pin.urn.arpa has NAPTR record 100 100 "" "" "" pin.verisignlabs.com. 
Linux% host -t naptr uci.urn.arpa 
uci.urn.arpa has NAPTR record 100 100 "" "" "" uci.or.kr. 


出 现 的 这 些 URN 名 称 空间 目前 很 少 关注 ， 并 且 URN 广泛 使 用 到 何 种 程度 仍然 不 清楚 ， 
同时 现在 有 一 些 竞争 的 方法 ， 它 们 使 用 持久 标识 符 来 表达 和 定位 对 象 (例如 ， 见 [P10])。 然 
而 ， 超 过 40 种 的 URN 名 称 空间 已 被 定义 [URN]， 所 以 仍然 有 社区 对 建立 名 称 空间 有 兴趣 ， 
尽管 很 少 有 对 应 的 全 球 活 动 的 NAPTR 记录 。 
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11.5.6.14 S-NAPTR 和 U-NAPTR 

当 应 用 程序 要 确定 特定 主机 、 协 议和 端口 号 以 用 于 到 达 域 内 的 服务 时 ， 一 个 共同 的 问题 
出 现 了 。 例 如 ， 一 个 邮件 阅读 应 用 程序 在 域 example.com 中 的 用 户 计算 机 上 运行 ， 它 可 能 需 
要 找到 提供 IMAP 服务 的 服务 器 。 已 经 出 现 一 种 约定 ， 只 需 简单 地 将 服务 名 称 添加 到 域名 前 
面 (例如 ，imap.example.com)。 使 用 CNAME、A 或 AAAA 记录 有 点 僵硬 ， 因 为 这 些 记 录 
类 型 不 传达 任何 使 用 的 协议 或 端口 号 的 指示 。SRYV 记录 通过 提供 另 一 个 间接 层 而 更 进 了 一 步 ， 
但 是 它们 的 目标 可 能 只 包含 随后 检索 的 A AAAA 记录 的 域名 。 使 用 NAPTR 记录 (而 不 是 
通过 额外 的 间接 层 ) 更 加 灵活 ， 并 且 人 允许 使 用 其 他 目标 记录 类 型 (如 SRV 记录 )。 

鉴于 正则 表达 式 的 复杂 性 ，NAPTR 结构 和 重 写 功 能 已 经 引起 实施 者 和 操作 者 的 一 些 
关注 。 为 了 简化 情况 ， 仍 需 提 供 一 个 超越 基本 SRV 记录 的 方法 来 定位 服务 ， 直 接 NAPTR 
( Straightforward NAPTR, S-NAPTR) [RFC3958] 指定 了 一 个 DDDS 应 用 程序 ， 通 过 在 
NAPTR 记录 的 内 容 上 使 用 某 些 简 化 的 限制 来 完成 包含 服务 器 名 称 的 域名 “标签 ”的 映射 。 

对 于 S-NAPTR，AUS 是 一 个 特定 服务 的 授权 服务 器 在 寻找 的 域名 标签 。 第 一 个 众 所 周 
知 的 规则 是 识别 函数 。 预 期 输出 是 联系 一 个 域内 特定 应 用 服务 所 必需 的 信息 《〈 例 如， 协议 、 
主机 、 端 口 )。 只 有 S 和 A 终结 标志 被 允许 ,它们 分 别 说 明 一 个 SRV RR 或 域名 (用 于 形成 
随后 的 对 A 或 AAAA RR 的 请 求 )。Service 参数 从 IANA 注册 [SNP] 中 保存 的 一 个 集合 中 获 
取 ，Regexp 字段 没有 使 用 。 只 有 Replacement 字段 是 活动 的 。S-NAPTR 连同 互联 网 注册 信 
息 服务 (IRIS) [RFC3981] 一 起 使 用 ， 基 于 XML 的 文本 应 用 协议 用 于 交换 与 域名 和 其 他 注册 
信息 相关 的 信息 ， 它 的 数据 库 包含 在 DNS 名 称 空间 iris.arpa 部 分 。 例 如 : 


Linux% host -t naptr areg.iris.arpa 
reg.iris.arpa NAPTR 
100 10 "" “AREG1:iris.xpc:iris.lwz" "" areg.nro.net. 


该 例子 使 用 S-NAPTR (没有 正则 表达 式 )， 表 明 为 了 执行 对 于 AREG1 类 型 数据 的 ISIS 查询 
( 见 [RFC4698])， 随 后 应 该 启动 向 areg.nro.net 的 NAPTR 查询 。 

S-NAPTR 的 经 验 和 进一步 考虑 导致 支持 URI 的 NAPTR (-U-NAPTR) 的 发 展 ， 它 放宽 
T S-NAPTR 的 一 些 限制 , 但 保留 了 它 的 所 有 其 他 的 功能 和 注册 。 最 重要 的 是 ， 人 允许 使 用 一 
个 额外 的 口 标志 ,使 得 NAPTR 记录 能 够 指向 一 个 URI， 从 而 允许 使 用 正则 表达 式 。 这 与 
NAPTR 的 完全 通用 版 本 相似 ， 除 了 U-NAPTR 正则 表达 式 仅 限于 下 列 形式 : !.*!<URI>!。 也 
就 是 说 ， 整 个 AUS 被 一 个 URI HHT. U-NAPTR 正在 和 位 置 到 服务 传输 协议 (Location-to- 
Service Translation protocol, LoST) [RFC5222] 一 起 使 用 ， 给 定 网 络 连接 点 和 地 理 位 置 ， 该 
协议 可 以 用 于 确定 正确 的 服务 。 这 样 的 信息 在 公共 安全 应 用 中 是 非常 有 用 的 ， 地 理 位 置 决定 
了 特定 的 权限 区 域 和 应 该 提供 应 急 服务 的 责任 方 。 


11.5.7 ”动态 更 新 (DNS UPDATE) 


动态 更 新 一 个 区 域 是 可 能 的 ， 这 被 称 为 DNS UPDATE， 可 以 使 用 [RFC2136] 中 定义 的 
协议 。 它 支持 指定 先决 条 件 (prerequisite) 和 更 新 请 求 。 先 决 条 件 在 服务 器 中 评估 ; 如 果 它 
们 不 为 真 ， 更 新 不 执行 ， 并 返回 一 个 错误 消息 。 

通过 向 一 个 区 域 的 授权 DNS 服务 器 发 送 动态 更 新 的 DNS 消息 ，DNS UPDATE 就 可 以 
完成 。 此 类 消息 的 结构 和 传统 的 DNS 信息 是 一 样 的 ， 只 不 过 头 部 字段 和 区 段 有 不 同 的 名 称 
( 见 图 11-3 )。 区 段 说 明了 正在 更 新 的 区 域 、 需 要 不 同 的 RR 存在 (或 不 存在 ) 以 便 让 更 新 发 
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挥 作用 的 先决 条 件 ， 以 及 更 新 信息 (update information )。 在 一 次 更 新 中 ， 头 部 反映 了 查询 的 
格式 ， 而 操作 码 字 段 被 设置 为 Update ( 5 )。 头 部 字段 ZOCOUNT 、PRCOUNT 、UPCOUNT 
和 ADCOUNT 包含 以 下 计数 : 要 被 更 新 的 区 域 ( 值 将 为 1 )， 要 考虑 的 先决 条 件 ， 要 做 出 的 
更 新 和 额外 的 信息 记录 。[RFC2136] 也 定义 了 DNS 响应 消息 中 携带 的 RCODE 值 的 集合 ， 该 
消息 能 够 说 明 与 先决 条 件 或 服务 器 的 问题 相关 的 情况 ( 表 11-2 中 的 值 6 ~ 10 )。 

更 新 消息 的 区 域 区 段 ( 见 图 11-7 ) 说 明了 该 区 域 的 名 称 、 类 型 和 类 。 类 型 值 是 6， 表 明 
SOK 记录 的 存在 ， 用 于 识别 该 区 域 。 类 值 是 1 (互联 网 )， 表 明 我 们 关心 的 任意 更 新 消息 。 正 
被 更 新 的 所 有 记录 必须 在 相同 的 区 域 中 。 

更 新 消息 的 先决 条 件 区 段 包含 一 个 或 多 个 先决 条 件 ， 它 使 用 我 们 先前 在 11.5.5 节 讨 论 的 
RR 的 格式 来 描述 。 有 五 种 类 型 的 先决 条 件 : RRSet 存在 (依赖 于 值 的 和 不 依赖 于 值 的 种 类 )， 
RRSet 不 存在 ， 名 称 在 使 用 ， 名 称 没 有 使 用 。 回 忆 一 下 ，RRSet 是 一 组 RR， 它 们 来 自 于 相 
同 区 域 ， 共 享 相同 名 称 、 类 和 类 型 。 为 了 表达 先决 条 件 的 语义 ，RR 类 、 类 型 和 RDATA 值 
的 组 合 根据 表 11-5 设置 。 


表 11-5 eee RR 类 和 类 型 字段 说 明了 先决 条 件 类 型 
先决 条 件 类 型 (语义 ) RDATA 设置 
RRSet 存在 (不 依赖 于 什 ) C n 
RRSet 存在 《依赖 于 值 ) 
RRSet 不 存在 
有 


名 称 在 使 用 ANY 


各 隐没 有 全 用 


RRSet 存在 类 型 意味 着 在 区 域 区 段 中 指定 的 区 域 中 至 少 存在 一 个 RRSet， 它 与 先决 条 件 
区 段 中 对 应 的 RR 的 名 称 和 类 型 相 匹 配 。 在 依赖 于 值 的 情况 中 ， 只 有 当 匹 配 的 RR 也 包含 匹 
Achy RDATA 值 时 ， 先 决 条 件 才 为 真 。RRset 不 存在 类 型 意味 着 在 区 域 区 段 中 指定 的 区 域 中 
没有 RRSet 与 先决 条 件 区 段 中 的 RR 名 称 和 类 型 相 匹 配 。 最 后 两 种 情况 (名称 在 使 用 和 名 称 
没有 使 用 ) 只 涉及 域名 ; 类 型 值 没有 使 用 。 值 为 NONE 和 ANY，DNS 类 分 别 为 254 和 255. 

先决 条 件 区 段 的 后 面 是 Update 区 段 ， 它 包含 要 从 区 域 区 段 中 指定 的 区 域 中 添加 或 删 
除 的 RR。 有 四 种 类 型 的 更 新 ， 编 码 为 类 、 类 型 和 RDATA 字段 中 值 的 不 同 组 合 的 RR， 如 
表 11-6 所 说 明 的 。 

























表 11-6 Update 区 段 中 使 用 的 RR 类 和 类 型 字段 说 明了 更 新 类 型 
正 被 添加 的 RR 的 RDATA 
| ANY “| 直流 删 除 的 RRSet 的 类 型 | 空 (TTL 和 RDLENGTH 也 是 0) 


空 (TTL 和 RDLENGTH 也 是 0) 


a a oe | 
从 RRSet 中 删除 RR 正 被 删除 的 RR 的 类 型 要 删除 的 匹配 的 RDATA 





更 新 区 段 包含 被 处 理 的 RR 的 集合 ， 假 如 没有 遇 到 由 于 先决 条 件 或 服务 器 问题 造成 的 错 
误 。 每 个 RR 编码 增加 或 删除 操作 。 修 改 可 以 通过 先 删除 随后 添加 来 执行 。 下 面 我 们 看 一 个 
DNS UPDATE 的 例子 ， 可 以 使 用 如 下 的 命令 引导 Windows 机 器 来 执行 动态 DNS 更 新 : 


C:\> ipconfig /registerdns 
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Windows 客户 端 默 认为 它们 的 计算 机 名 称 和 域名 发 布 更 新 ， 但 是 这 种 行为 也 可 以 为 每 个 
DNS 后 缀 基础 上 的 IPv4 启用 ， 这 可 以 通过 选择 标记 为 “在 DNS 注册 中 使 用 此 连接 的 DNS 
后 级 ”的 复 选 框 完成 ， 该 复 选 框 在 “高 级 TCP/IP 设置 ”下 的 “DNS” 部 分 ， 它 可 以 在 为 
TCP/IP 启用 的 每 个 接口 相关 的 “互联 网 协议 (TCP/IP) 属性 ”菜单 的 “一 般 ”选项 卡 中 发 现 。 
对 于 IPv6， 相 同 的 过 程 用 于 “ IPv6 属性 ”菜单 上 。 在 图 11-16 所 示 的 例子 中 ， 我 们 能 够 看 
到 ， 当 发 布 所 示 的 DNS 更 新 消息 时 ， 命 名 为 vista 的 机 器 如 何 更 新 本 地 区 域 dyn.home。 


dns-dyn.tr - Wireshark 


Transaction ID: 0x4089 
@ Flags: 0x2800 (Dynamic update) 
Zones: 1 
Prerequisites: 1 
Updates: 4 
Additional RRs: 0 
a Zone 
国 dyn. home: type aOR, class IN 
sites i 


@ vista. dyn. home: type CNAME, class NONE 
Name: vista. dyn. home 
Type: CNAME (Canonical name for an alias) 
Class: NONE (Ox00fe) 
Time to live: 0 time 


Data length: 0 
@ Updates 
@ vista.dyn.home: type AAAA, class ANY 
图 vista.dyn.home: type A, class ANY 
@ vista.dyn.home: type AAAA, class IN, addr 2001:5c0:1101:ed00:fd26:de93:5ab7:405a 
四 vista.dyn. home: type A, class IN, addr 10.0.0.57 





Al 11-16 DNS 动态 更 新 包含 区 域 区 段 中 的 SOA 记录 和 更 新 区 段 中 的 RR。 这 种 情况 包含 主机 vista. 
dyn.home 的 新 的 IPv4 和 IPv6 地 址 


图 11-16 显示 了 动态 更 新 是 如 何 编码 的 。 在 10.0.0.1 的 DNS 服务 器 (本 例 中 运行 
BIND9[AL06]) 配置 为 允许 动态 更 新 。 区 域 区 段 包含 识别 要 被 更 新 的 区 域 (vista.dyn.home) 的 
SOA 记录 。 先 决 条 件 区 段 包含 一 个 RR， 其 RDATA 区 段 长 度 为 0，TTL 值 为 0。RR 对 应 于 
K 11-5 中 第 3 行 (RRset 不 存在 ) 的 先决 条 件 类 型 ， 因 为 它 的 类 型 不 是 ANY (为 CNAME), 
它 的 类 被 设置 为 NONE (254 )。 

在 这 种 特殊 情况 下 ， 地 址 10.0.0.57 和 2001:5c0:1101:ed00:fd26:de93:5ab7:405a 与 名 称 
vista.dyn.home 相关 联 。 通 过 首先 删除 AAAA 和 A RRSet (对 应 于 表 11-6 中 第 2 行 )， 然 后 将 
AAAA 和 A RRSet (对 应 于 表 11-6 中 第 147) 添加 到 所 需 的 地 址 ， 这 样 就 可 以 完成 。 

DNS 更 新 的 响应 很 简单 、 紧 凑 。 图 11-16 所 示 的 更 新 的 响应 在 图 11-17 中 说 明 。 

标志 字段 表示 更 新 成 功 (没有 错误 )。 事 务 ID ( 0x4089 ) 用 于 确保 更 新 的 响应 与 对 应 的 请 
求 相 匹 配 。 注 意 ， 在 Linux 上 ，nsupdate 程序 可 以 用 来 更 新 合作 的 DNS 服务 器 。 只 有 当 授 权 
和 访问 控制 过 程 说 明 请 求 是 可 以 接受 的 ，DNS 服务 器 才 与 需求 的 更 新 协作 。 这 可 能 简单 如 无 
物 ， 或 在 服务 器 上 列 出 客户 端的 IP 地 址 ， 两 者 都 不 安全 ， 或 者 可 以 使 用 更 加 复杂 和 安全 的 方 
法 ,这些 方 法 提供 了 事务 认证 (transaction authentication)( 见 第 18 章 中 的 TSIG 和 SIG (0))。 
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dns-dyn.tr - Wireshark 











ne 
(Time: 0.001059000 seconds] 


Transaction ID: 0x4089 
已 F 0xa880 yi update response, No error) 
.= Response: Message is a response 


.. = Truncated: Message is not truncated 
.. = Recursion desired: Don't do query recursively 
.. = Recursion available: Server can do recursive queries 
+. = Z: reserved (0) 
+. = Answer authenticated: Answer/authority portion was not authenticated by the server 
> ++» = Non-authenticated data: Unacceptable 
0000 = Reply code: No error (0) 
Zones: 0 
Prerequisites: 0 
Updates: 0 
Additional RRs: 0 





图 11-17 对 动态 更 新 请 求 的 响应 包括 一 个 事务 ID 和 状态 标志 集合 


11.5.8 ”区 域 传输 和 DNS 通知 


区 域 传输 用 于 从 一 个 服务 器 到 另 一 个 服务 器 复制 一 个 区 域 的 一 组 RR (通常 是 从 主 服务 
器 向 从 服务 器 )。 这 样 做 的 目的 是 保持 多 台 服 务 器 的 区 域内 容 同 步 。 如 果 一 台 服 务 器 失效 了 ， 
多 台 服 务 器 可 以 为 失败 提供 恢复 能 力 。 由 于 多 台 服 务 器 能 够 共享 传人 查询 的 处 理 负 载 ， 性 能 
也 可 以 改进 。 最 后 ， 如 果 服 务 器 放置 于 离 客户 端 近 的 地 方 ，DNS 查询 /响应 的 延迟 可 能 降低 
( 即 解析 器 和 服务 器 之 间 的 网 络 延 迟 是 很 小 的 )。 

按照 最 初 的 规定 ， 区 域 传输 在 轮 询 (polling) 后 开启 ， 在 轮 询 中 ， 从 服务 器 周期 性 地 联 
系 主 服 务 器 ， 通 过 比较 区 域 的 版 本 号 以 查看 区 域 传输 是 否 为 必要 的 。 稍 后 的 方法 认为 ， 如 果 
需要 开启 区 域 传 输 ， 当 区 域内 容 改 变 时 使 用 异步 
更 新 机 制 。 这 被 称 为 DNS NOTIFY. 一旦 启动 
区 域 传输 ， 或 是 传输 整个 区 域 (使 用 DNS AXFR 
消息 ) [RFC5936]， 或 是 选择 使 用 增 量 区 域 传输 
(incremental zone transfer) (使 用 DNS IXFR 的 消 
息 ) [RFC1995]。 一 般 方案 根据 图 11-18 所 示 进 行 
操作 。 

现在 ， 我 们 将 仔细 查看 每 个 选项 ， 包 括 完 整 
和 增 量 区 域 传输 ， 以 及 DNS 通知 。 


11.5.8.1 ”完整 区 域 传输 (AXFR 消息 ) 
完整 区 域 传输 由 区 域 的 SOA 记录 中 的 区 域 图 11-18 DNS 区 域 传输 在 服务 器 之 间 复 制 

传输 参数 控制 : 主 名 称 服务 器 ， 序 列 号 ， 刷 新 间 内 容 。 一 个 可 选 的 通知 可 以 引起 从 

隔 ， 重 试 间隔 和 到 期 间隔 。 当 配置 后 ， 从 服务 器 服务 器 请 求 完整 或 增 量 区 域 传输 


从 服务 器 主 服务 器 


SOA 查询 


AXFR 或 [XFR 
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尝试 联系 主 服 务 器 以 查看 区 域 传输 是 否 是 必要 的 。 根 据 刷 新 间隔 ， 周 期 性 地 尝试 联系 。 当 服 
务 器 开启 时 ， 它 们 也 开始 尝试 。 如 果 联 系 没 有 成 功 ( 从 服务 器 没有 响应 )， 根 据 重 试 间隔 (一 
般 比 刷新 间隔 短 )， 周 期 性 地 尝试 重 试 。 如 果 在 到 期 间隔 内 没有 刷新 ， 整 个 区 域 的 内 容 被 刷 
新 ， 同 时 使 区 域 服务 器 无 效 。 
一 个 全 区 域 传 送 (AXFR) DNS 信息 (在 问题 区 段 包含 AXFR 类 型 的 标准 查询 ) 使 用 
TCP 请 求 一 个 完整 的 区 域 传输 。 为 了 查看 这 样 的 消息 ， 我 们 可 以 在 本 地 网 络 中 使 用 host 程序 
559) 来 开始 一 个 请 求 : 


Linux% host -1 home. 
Using domain server: 
Name: 10.0.0.1 
Address: 10.0.0.1#53 
Aliases: 


home name server gw.home. 
ap-home has address 10.0.0.6 
gw.home has address 10.0.0.1 


-1 标志 告诉 host 程序 从 本 地 DNS 服务 器 执行 一 个 完整 区 域 传 输 。 该 程序 启动 一 个 基于 TCP 
的 查询 / 响应 对 话 ， 如 图 11-19 所 示 。 


dns-axfr,tr - Wireshark 


[Response In: 61 
Length: 22 
Transaction ID: 0xee03 
@ Flags: 0x0000 (Standard query) 
Questions: 1 
Answer RRs: 0 
Authority RRs: 0 
Additional RRs: O 
a Queries 
"home: type rR class IN = =o 
Name: home 
Type: AXFR (Request for full zone transfer) 
Class: IN (Ox0001) 
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图 11-19 一 个 完整 区 域 传输 的 DNS 请 求 使 用 AXFR 记录 类 型 和 TCP 传输 协议 


在 图 11-19 中 ， 我 们 可 以 看 到 使 用 TCP 的 区 域 传输 是 如 何 发 生 的 。 前 面 的 三 个 TCP 报 
文 段 是 标准 TCP 连接 建立 过 程 的 一 部 分 ( 见 第 13 章 )。 第 4 个 (解码 ) 分 组 是 请 求 。 这 是 一 
个 正规 的 DNS 标准 ， 类 型 为 AXFR， 类 为 IN (互联 网 )。 该 查询 是 对 于 域名 home 的 。 对 于 

560) 该 查询 的 响应 包含 在 消息 6 中 ， 跟 随 在 TCP ACK 之 后 ( 见 图 11-20 )。 
在 图 11-20 中 ,我 们 可 以 看 到 整个 区 域 是 如 何在 响应 中 运载 的 。 在 接收 响应 后 ， 客 户 
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端的 TCP 确认 (ACK) 数据 ， 并 且 启 动 一 个 TCP 连接 关闭 。 使 用 FIN-ACK 握手 (分 组 
8 ~ 10 )， 连 接 被 优雅 地 关闭 了 。 查 看 第 13 章 来 获取 关于 标准 TCP 连接 建立 和 清除 的 详细 
情况 。 


dns-axfrtr - Wireshark 


(Time: 0.018346000 seconds] 
Length: 297 
Transaction ID: Oxeed3 
@ Flags: 0x8480 (Standard query response, No error) 
Questions: 1 
Answer RRs: 12 
Authority RRs: 0 
Additional RRs: 0 
fa Queries 
fa home: type AXFR, Class IN 
Name: home 
Type: AXFR (Request for full zone transfer) 
Class: IN (Ox0001) 
j "ins ae ol Ui eet Ne ee me SN ees Pe eg Nie 
home: type SOA, class IN, “mname ae home 
im home: type NS, class IN, ns gw. hom 
W ap.home: type A, class IN, addr 10. 0:06 
国 dns.home: type CNAME, class IN, cname gw. home 
@ ds1.home: type A, class IN, addr 10.0.0.138 
@ extern.home: type A, class IN, addr 10.0.0.129 
@ fax. home: type CNAME, class IN, cname hp. home 
@ fc8.home: type A, class IN, addr 10.0.0.13 
@ gw. home: type A, class IN, addr 10.0.0.1 
Æ hp.home: type A, class IN, addr 10.0.0.14 
@ Scanner .home: type CNAME, Class IN, cname hp. home 
@ home: type SOA, class IN, mname ow. home 





图 11-20 完整 区 域 传输 请 求 的 成 功 响 应 包括 该 区 域 的 所 有 记录 。 事 务 使 用 TCP 进行 ， 
因为 区 域内 容 可 能 很 大 ， 并 且 需 要 一 个 可 靠 的 副本 


虽然 它 可 以 和 任意 的 DNS 服务 器 执行 这 样 的 区 域 传 输 ， 但 是 它们 现在 通常 限制 于 区 域 
的 权威 服务 器 (例如 ， 区 域 的 NS 记录 中 列 出 的 那些 )。 该 限制 是 出 于 隐私 和 安全 的 考虑 一 一 
区 域内 主机 的 知识 可 帮助 对 于 特定 服务 或 主机 的 攻击 。 


11.5.8.2” 增 量 区 域 传输 (IXFR 消息 ) 

为 了 改进 区 域 传输 的 效率 ，[RFC1995] 定义 了 增 量 区 域 传 输 (incremental zone transfer) 
的 使 用 。 使 用 增 量 区 域 传输 和 IXFR 消 只 提供 区 域 中 的 变化 。 为 了 执行 增 量 区 域 传 
输 ， 客 户 端 (例如 ， 从 服务 器 ) 必须 提供 它 在 该 区 域 的 当前 序列 号 。 在 下 面 的 例子 中 ， 我 们 
可 以 通过 提供 序列 号 和 dig title ener 


Linux’ dig +short @10.0.0.1 -t ixfr=1997022700 home. 
gw.home. hostmaster.gw.home. 1997022700 10800 15 604800 10800 


命令 行 中 指出 ， 命 令 的 输出 应 该 是 简短 的 ，10.0.0.1 是 要 使 用 的 DNS 服务 器 的 地 址 ， 以 
序列 号 1997022700 开始 的 增 量 区 域 传输 应 该 被 执行 。 这 个 例子 创建 了 与 图 11-19 和 图 11-20 
中 所 示 的 AXFR 类 似 的 交换 ， 只 不 过 在 这 种 情况 下 请 求 的 序列 号 与 当前 的 序列 号 匹配 ( 见 
图 11-21 )。 
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dns-ixfr.tr - Wireshark 


| File Edt View Go Capture Analyze Statistics Telephony Tools Help 
eee Baxes) serama EY 








Response In: 6 
Length: 56 
Transaction ID: Oxf390 
Œ Flags: 0x0000 (standard query) 
Questions: 1 
Answer RRS: 0 
Authority RRs: 1 
Additional RRs: 0 
BB Queries 
f home: type IXFR, class IN 
Name: home 
Type: IXFR (Request for incremental zone transfer) 
Class: IN (€0xQ001) 
& Authoritative nameservers 
home: type SOA, class IN, mname <Root> 
Name: home 
Type: SOA (Start of zone of authority) 
Class: IN (Ox0001) 
Time to live: 0 time 
Data length: 22 
Primary name server: <Root> 
Responsible authority's mailbox: <Root> 
Serial number: 1997022700 
Refresh interval: 0 time 
Retry interval: 0 time 
Expiration limit: 0 time 
Minimum TTL: 0 time 





Al 11-21 在 TCP 上 运载 的 增 量 区 域 传输 请 求 (IXFR 记录 类 型 )。 序 列 号 用 于 确定 自前 一 次 区 域 传输 
发 生 后 哪些 记录 (如果 有 ) 已 经 改变 了 


11-22 显示 了 IXFR 请 求 如 何在 授权 区 段 包含 一 个 大 多 数 为 空 的 SOA RR. SOA 记录 
包括 指定 的 序列 号 (1997022700 )。 响 应 (分 组 6 ) 不 包含 任何 真实 的 信息 ， 因 为 序列 号 与 
当前 服务 器 的 相 匹 配 。 

在 图 11-22 中 的 响应 只 在 回答 区 段 包 含 SOA RR。 不 像 包 含 在 查询 中 的 那个 ， 这 个 由 完 
整 的 SOA 字段 填充 (例如 ， 邮 箱 、 区 域 传输 参数 )。 然 而 ,没有 额外 的 回答 ， 因 为 当前 该 区 
域 的 序列 号 与 请 求 的 序列 号 相 匹 配 。 因 此 ， 请 求 客户 端 被 认为 是 最 新 的 ， 而 不 需要 任何 额外 
的 信息 或 区 域 传输 。 


11.5.8.3 DNS NOTIFY 

如 前 所 述 ， 轮 询 通常 用 于 确定 区 域 传输 的 必要 性 ， 也 就 是 说 ， 从 服务 器 会 定期 (刷新 闻 
隔 ) 检查 主 服务 器 ， 查 看 区 域 是 否 已 经 更 新 (通过 不 同 的 序列 号 说 明 )， 在 哪 种 情况 下 区 域 传 
输 将 启动 。 这 个 过 程 有 点 浪费 ， 因 为 许多 无 用 的 轮 询 在 区 域 更 新 前 可 能 发 生 。 为 了 改善 这 种 
情况 ，[RFC1996]DNS 设计 了 DNS NOTIFY 机 制 。DNS NOTIFY 允许 修改 区 域内 容 的 服务 
器 通知 从 服务 器 更 新 已 经 发 生 ， 区 域 传输 应 该 启动 。 更 具体 地 说 ， 如 果 启 用 ， 当 区 域 SOA 
RR 改变 (例如 ， 如 果 序 列 号 增加 ) 时 ， 通知 消息 被 发 送 到 一 组 感 兴趣 的 服务 器 。 这 使 得 区 域 
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传输 在 需要 时 开启 。 使 用 本 地 名 称 服务 器 ， 我 们 可 以 看 到 这 是 如 何 工作 的 ( 见 图 11-23 )。 








[Request In: 4 
[Time: 0.001004000 seconds] 
Length: 72 
Transaction ID: Oxf390 
@ Flags: 0x8480 (Standard query response, No error) 
Questions: 1 
Answer RRS: 1 
Authority RRs: 0 
Additional RRs: 0 
加 Queries 
jj home: type IXFR, class IN 
Name: home 
Type: IXFR (Request for incremental zone transfer) 
Class: IN (Ox0001) 
5 Answers 
@ home: type SOA, class IN, mname gw. home 
Name: home 
Type: SOA (Start of zone of authority) 
Class: IN (Ox0001) 
Time to live: 1 day 
Data length: 38 
Primary name server: gw. home 
Responsible authority's mailbox: normi ner gw. nane. 
Mserial number?) 1997022700) ni uen 
Refresh interval: 3 hours 
Retry interval: 15 seconds 
Expiration limit: 7 days 
Minimum TTL: 3 hours 





图 11-22” 当 序列 号 是 当前 的 时 ，IXFR 请 求 的 响应 只 包含 一 个 SOA 记录 ， 没 有 额外 的 信息 


这 个 例子 说 明了 简单 的 DNS NOTIFY 消息 ， 它 被 发 送 到 服务 器 的 通知 服务 器 集合 之 
中 的 一 台 主 机 ， 该 通知 服务 器 集合 由 应 该 被 通知 区 域 改变 的 服务 器 组 成 。 消 息 是 一 个 UDP/ 
IPv4 的 DNS 查询 消息 ， 其 标志 字段 说 明 区 域 变化 通知 。 查 询 区 段 包含 一 个 SOA 记录 的 类 型 
和 类 ， Rie eee a Te SOARR NETL TERR EARR 
足够 的 信息 ， 以 确定 区 域 传输 可 能 是 必要 的 。 需 要 注意 的 是 ， 一 个 服务 器 可 能 从 多 个 其 他 服 
务 器 收 到 通知 ， 此 时 它们 在 更 新 其 区 域 信息 。 这 对 于 协议 操作 不 存在 问题 。 

DNS NOTIFY 机 制 默认 使 用 UDP，UDP 是 一 种 不 可 靠 的 协议 。 在 特殊 的 例子 中 ， 通 知 
集合 只 包括 地 址 10.0.0.11， 它 不 运行 DNS 服务 器 。 因 此 ， 消 息 每 隔 15s 重 发 一 次 ， 以 希望 
获得 从 来 不 会 到 达 的 响应 


注意 重 发 之 间 的 时 间 以 及 尝试 重 发 的 总 数 ， 在 [RFC1996] 中 分 别 建议 为 60s 和 
5 次 。 它 还 建议 使 用 一 种 计时 补偿 方法 (递增 或 指数 级 )。 在 这 里 我 们 可 以 看 到 的 
BINDS 并 没 遵循 这 些 建 议 ， 因 为 两 次 重 传 间隔 15s。 
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dns-notify.tr - Wireshark 





Transaction ID: 0x4436 
a Li a 0x2400 ii, change notification) 
= Response: Message is a query 
mae 0. .... s... = Opcode: Zone change notification (4) 
‘0. pais .. = Truncated: Message is not truncated 
wien +» = Recursion desired: Don’t do query recursively 
<. -O.. .... = Z: reserved (0) 
sess sese e220 a.a = NON-authenticated data: Unacceptable 
Questions: 1 
Answer RRs: 1 
Authority RRs: 0 
Additional RRs: 0 
GB Queries 
f@ home: type soa, class IN 
e 


Type: SOA (start of zone of authority) 
Class; IN (Ox0001) 
f@ Answers 
home: type 50a, class IN, mname gw. home 


Type: SOA (Start of zone of authority) 

Class: IN (Ox0001) 

Time to live: 0 time 

Data length: 38 

Primary name server: gw. hom 

Responsible authority's wat Th? hostmaster, ave home 


7022701 


z al 199 
Refresh interval: 3 hours 
Retry interval: 15 seconds 
Expiration Timir: 7 days 





图 11-23 一 个 DNS NOTIFY， 说 明 区 域 文件 的 更 新 。 间 隔 15s 有 两 个 重 传 (与 标准 中 建议 的 方法 相反 ) 


响应 是 简单 的 DNS 响应 消息 ， 除 了 事务 ID 外 没有 有 用 的 信息 ; 它们 只 用 于 完成 协议 以 
及 取消 发 送 服 务 器 的 重 传 。 


11.6 排序 列表 、 循 环 和 分 离 DNS 


到 目前 为 止 ， 我 们 已 经 讨论 了 如 何 设 置 域 名 ，DNS 支持 的 资源 记录 类 型 ， 以 及 用 于 获取 
和 更 新 区 域 的 DNS 协议 。 需 要 考虑 的 一 点 是 ， 返 回 什么 样 的 数据 以 及 以 什么 样 的 顺序 响应 
DNS 查询 。DNS 服务 器 可 以 返回 所 有 匹配 的 数据 给 任何 客户 端 ， 并 以 服务 器 认为 最 方便 的 
顺序 返回 。 然 而 ， 特 殊 的 配置 选项 和 行为 在 大 多 数 DNS 服务 器 软件 中 是 可 用 的 ， 以 达到 一 
定 的 操作 、 隐 私 或 性 能 目标 。 考 虑 图 11-24 所 示 的 拓扑 结构 。 

图 11-24 所 示 的 拓扑 结构 类 型 是 典型 的 小 型 企业 的 。 有 一 个 私有 网 络 和 一 个 包括 DNS 
服务 器 的 公共 网 络 。 此 外 ,在 DMZ 上 有 一 对 主机 (A 和 B)， 在 内 部 网 络 上 有 一 个 (C), 在 
互联 网 上 有 一 个 (R)。 多 宿主 主机 (M) 跨越 DMZ 和 内 部 网 络 。 因 此 ，M 有 来 源 于 两 个 不 
同 网 络 前 缀 的 IP 地 址 。 

一 台 希 望 联系 M 的 主机 执行 DNS 查找 ， 返 回 两 个 地 址 ， 一 个 与 内 部 网 络 相 关 ， 一 个 与 
DMZ 相关 。 当 然 ， 如 果 A, BA RÑ DMZ 到 达 M,C 通过 内 部 网 络 到 达 M， 这 将 更 高 效 。 
一 种 普遍 会 发 生 的 情况 是 ，DNS 服务 器 基于 请 求 的 源 IP 地 址 排序 它 返 回 的 地 址 。( 也 可 以 使 
用 目的 IP 地 址 ， 尤 其 是 如 果 M 在 相同 的 网 络 接口 上 使 用 来 自 不 同 子 网 的 多 个 IP 地 址 。) 如 
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果 请 求 系统 使 用 和 返回 地 址 记录 的 源 具 有 相同 的 网 络 前 缀 的 源 IP 地 址 ，DNS 服务 器 在 返回 
的 消息 中 早 一 些 放置 这 样 的 匹配 记录 的 集合 。 这 种 行为 鼓励 客户 端 找到 它 正 尝试 联系 的 特定 
的 服务 器 的 “最 近 的 ” 耳 地 址 ， 因 为 大 部 分 简单 的 应 用 程序 尝试 联系 返回 地 址 记录 中 发 现 的 
第 一 个 地 址 。 这 种 精确 的 行为 可 以 通过 使 用 所 谓 的 sortlist 或 是 rrset-order 指令 来 控制 (解析 
器 和 服务 器 的 配置 文件 中 使 用 的 选项 )。 如 果 由 DNS 服务 器 软件 默认 执行 ， 这 样 的 排序 行为 
A 


DNS 服 务 器 


DMZ (公共 ) 
网 络 





内 部 网 络 


图 11-24 在 小 型 企业 的 拓扑 结构 中 ，DNS 可 以 配置 返回 为 依赖 于 请 求 IP 地 址 的 不 同 的 地 址 


当 多 人 台 服 务 器 提供 一 种 服务 时 ， 传 人 的 连接 就 会 是 负载 均衡 的 ( 即 ， 在 服务 器 之 间 划 
分 )， 这 时 一 些 相 关 的 问题 就 会 出 现 。 在 前 面 的 例子 中 ， 想 象 一 个 服务 由 A 和 了 B 提供 。 这 样 
的 服务 可 以 通过 URL http://www.example.com 来 识别 。 请 求 客户 端 ( 如 RR) 执行 域名 www. 
example.com 的 DNS 查询 ， 并 且 DNS 服务 器 最 终 返 回 一 个 地 址 记录 的 集合 。 要 实现 负载 均 
i, DNS 服务 器 可 以 配置 为 使 用 DNS 循环 (round-robin)， 这 意味 着 服务 器 交换 返回 地 址 记 
录 的 顺序 。 这 样 做 鼓励 每 个 新 的 客户 端 访问 不 同 于 前 一 个 客户 端 服务 器 上 的 服务 。 虽 然 这 有 
助 于 平衡 负载 ， 但 是 这 远 不 够 完美 。 当 记录 被 缓存 时 ， 预 期 的 效果 可 能 因为 复 用 现 有 的 缓存 
地 址 记录 而 不 会 发 生 。 此 外 ， 这 种 方案 可 以 很 好 地 平衡 跨 服 务 器 连接 的 数量 ， 但 不 是 负载 。 
不 同 的 连接 可 以 有 完全 不 同 的 处 理 要 求 ， 因 此 真正 的 处 理 负荷 可 能 始终 保持 不 平衡 ， 除 非特 
定 的 服务 总 是 具有 相同 的 处 理 要 求 。 

最 后 的 考虑 是 关于 DNS 服务 器 返回 的 数据 支持 隐私 的 问题 。 在 这 个 例子 中 ,我 们 希望 
安排 该 企业 内 的 主机 能 够 检索 网 络 中 的 每 一 台 计 算 机 的 资源 记录 ， 同 时 ， 我 们 限制 对 R 可 见 
的 系统 的 集合 。 为 实现 这 一 目标 ， 有 一 种 称 为 分 离 DNS (split DNS) 的 技术 。 在 分 离 DNS 
中 ， 响 应 查询 的 返回 的 资源 记录 集合 依赖 于 客户 端的 身份 ， 并 可 能 查询 目的 地 址 。 大 多 数 
情况 下 ， 客 户 端 由 人 P 地 址 或 地 址 前 组 确定 。 使 用 分 离 DNS， 我 们 可 以 安排 企业 的 任何 主机 
( 即 那些 共享 一 组 前 绥 的 ) 配备 整个 DNS 数据 库 ， 而 那些 外 面 的 只 能 看 见 A 和 B， 其 中 提供 
了 主要 的 Web 服务 。 


11.7 ”开放 DNS 服务 器 和 DynDNS 


许多 家 庭 用 户 由 他 们 的 ISP 分 配 一 个 单一 的 IPv4 地 址 ， 这 个 地 址 随 用 户 的 电脑 或 家 庭 
网 关连 接 、 断 开 和 重新 连接 到 互联 网 而 改变 。 因 此 ， 用 户 往往 难以 建立 一 个 DNS AB, A 
许 运 行 的 服务 对 互联 网 是 可 见 的 。 一 些 所 谓 的 开放 动态 DNS (Dynamic DNS, DDNS) 服务 
器 可 以 用 来 支持 特殊 的 更 新 协议 ， 称 为 DNS 更 新 API [DynDNS]， 任 此 ， 用 户 可 以 根据 预 
先 注册 或 账户 在 提供 商 的 DNS 服务 器 中 更 新 条 目 。 这 项 计划 不 使 用 前 面 所 述 的 [RFC2136] 
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DNS UPDATE 协议 ， 反 而 是 一 个 独立 的 应 用 层 协 议 。 

为 了 使 用 这 项 服务 ， 在 客户 端 系统 上 运行 DDNS 客户 端 程序 (例如 ，Linux 中 的 inadyn 
或 ddclient 以 及 Windows 的 DynDNS Updater)， 也 可 能 是 在 用 户 的 家 用 路 由 器 上 。 大 多 数 情 
况 下 ， 这 些 程序 被 配置 为 需要 登录 信息 ， 以 用 于 访问 远程 DDNS 服务 。 当 服务 被 调用 时 ， 客 
户 端 程序 与 服务 器 联系 ， 提 供 它 的 主机 的 当前 全 球 IP 地 址 (由 ISP 分 配 的 一 个 ， 往 往 是 一 个 
NAT 映射 的 地 址 )， 并 且 变 为 静态 。 之 后 ， 它 会 定期 更 新 与 服务 器 的 信息 。 这 样 做 允许 服务 
器 在 某 个 时 间 间 隔 内 没有 接收 到 更 新 时 清除 信息 。 这 些 服务 包括 在 以 下 Web 网 站 中 提供 的 
服务 (截止 到 2011 Æ): : http://www.dyndns.com/services/dns/dyndns, http://freedns.afraid.org 
和 http://www.no-ip.com/services/managed_dns/free_dynamic_dns.html, 


11.8 透明度 和 扩展 性 


567 DNS 是 互联 网 上 最 普遍 的 服务 之 一 ， 并 已 成 为 一 个 有 吸引 力 的 服务 ， 它 通常 作为 基础 ， 
通过 扩展 添加 新 的 功能 。 例 如 ， 有 很 多 记录 类 型 ， 如 TXT SRV 和 A (例如 ， 见 [RFCS782]), 
可 以 用 来 为 未 来 的 服务 编码 有 用 数据 。[RFC5507] 为 扩展 DNS 设想 了 各 种 方法 ， 最 终结 论 
是 建立 和 实现 新 的 RR 类 型 是 最 有 吸引 力 的 办 法 。 多 亏 了 较 早 的 规范 [RFC3597]， 有 一 种 标 
准 方法 将 未 知 的 RR 类 型 作为 不 透明 的 数据 来 处 理 。 也 就 是 说 ， 如 果 不 认 可 ， 它 们 不 解释 ， 
处 理 是 透明 (transparent) 的 。 这 人 允许 新 的 RR 类 型 在 运载 时 不 会 对 现 有 RR 类 型 的 处 理 造 成 
负面 影响 。 

保持 透明 度 存 在 的 问题 之 一 是 嵌入 域名 的 编码 和 压缩 。 对 于 已 知 的 RR 类 型 ， 为 了 使 用 
压缩 标签 实现 压缩 ， 允 许 改 变 嵌 人 域名 的 大 小 写 。 拥 有 者 域名 (查询 的 “关键 字 ”) 总 是 服从 
于 压缩 。 然 而 ， 对 于 未 知 的 RR 类 型 ， 嵌 入 的 域名 不 得 使 用 压缩 标签 。 此 外 ， 将 来 包含 伐 人 
域名 的 RR 类 型 也 同样 禁止 ( 见 [RFC3597] 的 第 4 节 )。 未 知 类 型 仍然 可 以 按 位 进行 比较 ( 例 
如 ， 动 态 更 新 )。 这 意味 着 ,任何 嵌入 域名 以 大 小 写 教 鳄 的 方式 相 比 较 [RFC4343]， 这 与 大 
多 数 其 他 的 DNS 操作 相反 。 同 样 的 情况 也 出 现在 使 用 TXT 记录 的 艇 入 域名 中 。 

当 新 形势 的 服务 和 处 理 DNS 流量 的 代理 引入 时 ， 另 一 个 与 透明 度 相关 的 问题 出 现 了 。 
如 今 在 一 个 家 庭 网 关 或 防火 墙 内 部 包含 一 个 DNS 代理 是 相当 普遍 的 。 一 个 典型 的 代理 处 理 
来 自 于 用 户 家 庭 网 络 的 传人 DNS 请求 ， 并 将 该 请 求 转发 到 ISP 提供 的 域名 服务 器 。 它 也 接 
收 返回 的 信息 ， 并 可 以 (也 可 以 不 ) 缓存 结果 。 从 历史 上 看 ， 一 些 代理 试图 做 的 不 仅仅 是 中 
继 请 求 和 答复 ， 这 已 经 引起 了 一 些 与 DNS 的 互 操作 性 的 问题 。[RFC5625] 指定 了 DNS 代理 
的 合理 的 操作 ， 基 本 上 要 求 DNS RR 是 无 解释 的 ， 并 仅仅 由 代理 中 继 。 数 据 分 组 被 截断 的 情 
况 是 无 法 避免 的 ， 任 何 这 样 的 代理 必须 设置 TC 位 字段 表明 一 些 DNS 数据 被 删除 了 。 此 外 ， 
任何 此 类 代理 应 准备 处 理 TCP 请 求 ， 因 为 当 基 于 UDP 的 请 求 被 截断 时 ， 这 是 传统 的 回 退 机 
fil, 并且 由 [RFC5966] 要 求 。 


11.9 ”从 IPv4 向 IPv6 转换 DNS 


第 7 章 中 我 们 描述 了 一 个 框架 ， 用 于 在 IPv4 和 1IPv6 之 间 转 换 IP 数据 报 。 支 持 这 种 能 
力 的 转换 器 预计 将 与 在 DNS A 和 AAAA 记录 之 间 转 换 的 相关 功能 一 起 部 署 [RFC6147], 后 
者 允许 只 有 IPv6 的 客户 端 来 访问 出 现在 A 记录 中 的 DNS 信息 (例如 ， 在 IPv4 互联 网 中 )。 
这 种 功能 被 称 为 DNS64， 其 建议 的 部 署 方案 之 一 ( 称 为 “DNS 递归 解析 模式 中 的 DNS64”) 
如 图 11-25 所 示 。 
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11-25 DNS64 将 A 记录 转换 为 AAAA 记录 ， 并 和 IPv4/IPv6 转换 器 一 起 工作 ， 
以 允许 只 有 IPv6 的 客户 端 访问 IPv4 网 络 中 的 服务 


如 图 11-25 所 示 ，DNS64 和 IPv4/IPv6 转换 器 结合 使 用 ( 见 第 7 章 )。 每 个 设备 配置 一 
个 或 多 个 通用 IPv6 前 级 ， 这 些 前 缀 是 在 创建 授信 式 IPv4 地 址 中 使 用 的 。 每 个 前 缀 可 能 是 
一 个 网 络 特定 的 前 缀 (例如 由 运营 商 拥 有 ) 或 是 知名 前 级 ( 64:ff9b::/96 )。DNS64 设备 作 
为 一 个 缓存 DNS 服务 器 。 只 有 IPv6 客户 端 使 用 它 作 为 主 DNS 服务 器 ， 并 可 以 请 求 域名 的 
AAAA 记录 。DNS64 将 这 样 的 请 求 转换 为 IPv4 端的 A 和 AAAA 记录 的 请 求 。 如 果 没 有 返 
E| AAAA 记录 ， 基 于 配置 的 前 级 和 它 检 索 的 每 个 A 记录 的 内 容 ，DNS64 通过 形成 能 入 式 
IPv4 地 址 来 提供 合成 (synthetic) AAAA 记录 。DNS64 也 响应 它 用 于 合成 AAAA RR 的 任意 
IPv6 地 址 的 PTR 查询 。 

为 了 在 DNS64 设备 中 实现 AAAA RR 的 合成 ， 只 实际 改变 DNS 消息 的 回答 区 段 。 其 他 
区 段 仍然 与 在 IPv4 端 检 索 时 一 样 。 当 是 CNAME 或 DNAME 链 时 ， 链 递归 地 跟随 ， 直 到 发 
现 A 或 AAAA 记录 为 止 ， 并 且 链 的 元 素 会 在 响应 中 包含 。 此 外 ， 可 以 配置 DNS64， 以 便 避 
免 特殊 的 排除 IPv6 或 IPv4 地 址 范围 的 合成 。 这 防止 了 某 些 异常 行为 (例如 ， 基 于 特殊 用 途 
的 IPv4 地 址 形成 嵌入 式 IPv4 地 址 )。 请 注意 ，DNS64 与 DNSSEC 有 微妙 的 相互 作用 ， 这 些 
问题 在 第 18 章 中 涉及 。 


11.10 LLMNR 和 mDNS 


普通 的 DNS 系统 需要 配置 一 组 DNS 服务 器 以 提供 名 称 和 地 址 之 间 的 映射 ， 以 及 其 他 可 
能 的 信息 。 当 只 有 少数 本 地 主机 和 希望 通信 时 ， 有 时 这 开销 太 大 。 在 DNS 服务 器 不 可 用 的 情况 
下 (例如 ， 迅 速 形 成 的 客户 端的 ad hoc ( 自 组 织 ) 网 络 ， 只 是 相互 连接 )， 可 以 使 用 一 个 特殊 的 
DNS 本 地 版 本 ， 称 为 本 地 链 路 组 播 名 称 解析 (Link-Local Multicast Name Resolution, LLMNR) 
[RFC4795]。 它 是 一 个 由 微软 开发 的 基于 DNS 的 ( 非 标准 ) 协议 ， 并 在 本 地 环境 中 使 用 以 帮 
助 发 现 局 域 网 上 的 设备 ， 如 打印 机 和 文件 服务 器 。Windows Vista, Windows Server 2008 和 
Windows 7 中 都 支持 它 。 对 于 IPv4 组 播 地 址 224.0.0.252 和 IPv6 地 址 ff02::1:3， 它 使 用 UDP 
端口 5355。 如 果 来 自 它 们 响应 的 任何 单 播 IP 地 址 ， 服 务 器 也 可 以 使 用 TCP 端口 5355。 

组 播 DNS ( multicast DNS，mDNS) [IDMDNS] 是 另 一 种 形式 的 本 地 类 DNS 功能 ， 它 
是 由 苹果 公司 开发 的 。 当 它 和 DNS 服务 发 现 协 议 结合 时 ， 苹 果 称 之 为 框架 Bonjour。mDNS 
使 用 通过 本 地 组 播 地 址 携带 的 DNS 消息 ， 使 用 UDP 端口 5353， 规 定 特殊 的 TLD.local 用 特 
殊 的 语义 处 理 。.local TLD 在 本 地 链 路 范围 。 在 该 TLD 中 的 域名 的 任何 DNS 查询 被 发 送 到 
mDNS IPv4 地 址 224.0.0.251 或 IPv6 地 址 ftb2::fb。 对 于 其 他 域 的 查询 可 以 随意 发 送 到 这 些 
组 播 地 址 。 人 允许 本 地 链 路 服务 器 来 响应 全 局 名 称 的 映射 可 能 引起 重大 安全 问题 。 为 了 解决 这 
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一 问题 ， 可 以 使 用 DNSSEC ( 见 第 18 章 )。mDNS 支持 在 local fy TLD 中 自主 分 配 名 称 ， 尽 
管 这 种 伪 TLD 还 没有 被 正式 预 留 [RFC2606]。 因 此 ， 诸 如 家 庭 局 域 网 等 小 型 网 络 上 的 主机 
可 以 被 分 配合 适 的 名 称 ， 如 printer.local, fileserver.local, cameral.local, kevinlaptop.local 等 。 
mDNS 中 的 机 制 用 于 检测 和 解决 冲突 。 


11.11 LDAP 


到 目前 为 止 ， 我 们 已 经 讨论 了 DNS MMF DNS 的 本 地 名 称 服务 。 为 了 文 持 更 丰 
富 的 查询 和 数据 操作 ， 有 一 种 更 普遍 的 目录 服务 ， 即 我 们 前 面 提 到 的 称 为 LDAP 的 服务 
[RFC4510]。LDAR( 现 在 为 LDAPv3 ) 是 一 种 互联 网 应 用 层 协 议 ， 可 以 根据 X.500 (1993) [X500] 
数据 和 服务 模型 提供 对 于 一 般 目 录 的 访问 (例如,“ 白 页 ”)。 它 提供 了 搜索 、 修 改 、 添 加 、 比 
较 和 删除 基于 用 户 选择 模式 的 条 目的 能 力 。LDAP 目录 是 一 个 目录 条 目的 树 ， 每 个 条 目 包含 
一 组 属性 。 由 于 TCP/IP 已 更 受 欢迎 ，LDAP 已 经 从 根源 演进 为 与 DNS 一 起 工作 。 例 如 ， 与 
MIT 的 校长 办 公 室 匹 配 的 目录 查询 可 以 通过 使 用 LDAP 搜索 工具 ldapsearch (微软 有 一 个 与 之 
相当 的 工具 称 为 tp， 在 它 的 Web 站 点 作为 支持 工具 提供 ) 来 形成 ， 它 按 如 下 方式 工作 : 


Linux% ldapsearch -x -h ldap.mit.edu -b "dc=mit,dc=edu" \ 
"(ou=*Chancellor*)" 

# extended LDIF 

# 


# LDAPV3 

# base <dc=mit,dc=edu> with scope sub 
# filter: (ou=*Chancellor*) 

# requesting: ALL 


命令 行 说 明 服务 器 Idap.mit.edu 可 以 不 使 用 任何 特殊 的 验证 协议 来 联系 ( -x 选项 )。 虽 
然 LDAP 的 完整 讨论 远 远 超出 了 本 章 (和 本 书 ) 的 范围 ， 但 部 分 输出 显示 了 dc ( 域 组 件 ) 属 
性 如 何 被 用 来 链接 LDAP 数据 和 DNS。 每 个 dc 组 件 拥有 一 个 DNS 标签 ， 并 且 它 们 可 以 被 
用 来 编码 一 个 完整 的 域名 ， 这 被 用 作 LDAP 查询 的 “基础 ”部 分 。 使 用 本 约定 ， 形 成 有 效 的 
LDAP 查询 并 不 特别 困难 。 在 这 种 情况 下 ， 它 是 包含 单词 Chancellor 的 组 织 单位 (ou)。 请 注 
意 ， 可 以 使 用 通配符 。 

LDAP 服务 器 经 常 在 企业 内 部 用 于 保留 目录 信息 ， 如 位 置 、 电 话 号 码 和 组 织 单位 。 微 软 
的 活动 目录 产品 包含 LDAP 的 功能 ， 被 广泛 用 于 管理 用 户 账户 、 服 务 ， 以 及 使 用 Windows 
的 大 企业 中 的 访问 权限 。 一 些 LDAP 服务 器 (如 MIT 的 和 其 他 许多 大 学 的 ) 也 可 通过 公共 互 
联网 使 用 。 


11.12 5 DNS 相关 的 攻击 


DNS 是 互联 网 的 一 个 重要 组 成 部 分 ， 多 年 以 来 它 已 经 成 为 一 些 攻击 和 对 策 的 对 象 
[RFC3833]。 最 近 ， 在 添加 强 认 证 到 DNS 操作 中 方面 ，DNS 安全 (DNSSEC) 这 项 全 球 性 工 
作 已 取得 实质 性 进展 。 我 们 将 DNSSEC 如 何 工 作 的 详细 讨论 推迟 到 第 18 章 ， 其 中 我 们 也 涉 
及 必要 的 密码 学 背景 。 现 在 ， 我 们 探索 对 DNS 已 经 发 动 的 一 些 攻击 。 

对 DNS 的 攻击 有 两 种 主要 的 形式 。 第 一 种 形式 涉及 Dos 攻击 ， 在 这 类 攻击 中 ， 由 于 重 
要 DNS 服务 器 (如 根 或 TLD 服务 器 ) 过 载 ，DNS 不 起 作用 。 第 二 种 形式 改变 资源 记录 的 内 
容 ， 或 伪装 成 一 个 官方 DNS 服务 器 ， 但 是 回复 假 的 资源 记录 ， 从 而 导致 主机 在 尝试 与 另 一 
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台 机 器 连接 时 ， 连 接 至 错误 的 IP 地 址 (例如 ， 银行 的 Web 站 点 )。 

2001 年 年 初 发 生 了 第 一 次 针对 DNS 的 重大 DoS 攻击 。 攻 击 包 含 生成 很 多 对 AOL. 
COM 的 MX 记录 的 请 求 。 攻 击 者 使 用 伪造 的 源 IP 地 址 产生 对 于 MX 记录 的 DNS 请 求 。 请 
求 是 一 个 相对 较 小 的 数据 分 组 ,然而 响应 较 大 ( 约 20 倍 )， 因 此 这 种 类 型 的 攻击 被 称 为 放大 
( amplification) 攻击 一 一 因为 攻击 造成 的 结果 是 ， 消 耗 的 带宽 量 比 生成 攻击 所 占 的 带宽 量 要 
大 很 多 。 响 应 会 定向 到 请 求 分 组 中 包含 的 卫 地址 ， 所 以 攻击 者 基本 上 可 以 导致 响应 流量 定 
向 到 任何 他 想 要 的 地 方 。 攻 击 在 CERT 事件 记录 中 详细 陈述 [CIN]。 

一 种 形式 的 攻击 涉及 DNS 中 数据 的 修改 ， 这 在 2008 年 年 底 有 报道 [CKB]， 现 在 被 称 为 
Kaminsky 攻击 。 它 包含 缓存 中 毒 ( cache poisoning)， 在 这 种 攻击 中 ， 一 台 DNS 服务 器 的 组 
存 内 容 被 错误 的 或 伪造 的 数据 替代 ， 并 且 最 终 送 达 终端 主机 上 的 解析 器 。 它 的 一 个 变种 是 ， 
攻击 者 使 用 特定 主机 域名 的 域 的 NS 记录 来 响应 一 台 缓 存 服务 器 的 A 记录 的 查询 。 主 机 的 IP 
地 址 (由 攻击 者 所 选择 的 ) 也 在 DNS 响应 的 额外 信息 区 段 中 提供 。 主 机 域名 可 能 共享 也 可 能 
不 共享 相同 的 子 域 作为 原始 的 DNS 请 求 。 与 这 种 形式 的 攻击 相关 的 主要 风险 是 ， 依 赖 于 合 
适 的 DNS 名 称 到 地 址 解析 的 客户 端 可 能 被 定向 到 伪 服 务 器 。 如 果 这 样 的 服务 器 被 故意 配置 
为 模仿 原来 的 主机 (例如 ,伪装 成 银行 的 Web 服务 器 )， 用 户 可 能 会 无 意 地 信任 伪装 的 服务 
器 ， 并 泄露 敏感 信息 。 对 此 以 及 其 他 相关 攻击 的 缓解 技术 在 [RFC5452] 中 给 出 。 一 种 方法 没 
有 在 [RFC5452] 中 描述 ， 称 为 DNS-0x20 [D08]， 它 涉及 编码 问题 区 段 查询 名 称 部 分 每 个 字 
符 的 0x20 位 置 的 临时 值 ， 该 问题 区 段 会 在 每 个 响应 的 对 应 位 置 中 回 显 。 这 成 为 可 能 ， 因 为 ， 
虽然 域名 以 大 小 写 不 敏感 的 形式 比较 ， 当 形成 响应 时 ， 服 务 器 往往 会 返回 一 个 查询 名 称 的 完 
全 相同 的 副本 。 如 果 在 查询 中 拥有 者 的 名 称 大 小 写 故意 混 排 ， 主 动 响应 将 难以 重新 产生 临时 
值 ， 并 且 更 容易 被 识别 (和 忽略 )。 


11.13 Ba 


DNS 是 互联 网 的 一 个 重要 组 成 部 分 ，DNS 技术 也 被 广泛 应 用 于 私有 网 络 中 。DNS 名 称 
空间 是 全 世界 范围 的 ， 并 且 划 分 成 以 顶级 域名 开始 的 层次 结构 。 域 名 可 以 使 用 国际 化 域名 
(IDN) 以 多 种 语言 和 文字 表示 。 应 用 程序 使 用 解析 器 来 联系 一 个 或 多 个 DNS 服务 器 ， 执 行 
对 区 域 数 据 库 的 查找 任务 ， 如 转换 主机 名 称 到 一 个 IP 地 址 ， 反 之 亦 然 。 解 析 器 然后 联系 一 
个 本 地 域名 服务 器 ， 该 服务 器 可 能 递归 地 联系 一 个 根 服务 器 或 满足 该 请 求 的 其 他 服务 器 。 大 
多 数 DNS 服务 器 和 一 些 解 析 器 缓存 知道 的 信息 ， 在 一 段 称 为 生存 时 间 (TTL) 的 间隔 内 ， 将 
其 提供 给 随后 的 客户 端 。 查 询 和 响应 使 用 一 个 特殊 的 DNS 协议 ， 它 与 TCP 或 UDP 一 起 工 
作 。 协 议 也 可 以 与 IPv4 或 IPv6 协议 或 两 者 的 混合 物 一 起 工作 。 

所 有 的 DNS 查询 和 响应 有 相同 的 消息 格式 ， 包 括 问题 、 回 答 、 授 权 信息 和 额外 信息 。 
资源 记录 用 来 保存 大 部 分 的 DNS 信息 ， 这 样 的 类 型 有 许多 : 地 址 ， 邮 件 交 换 站 ， 和 名称 的 
指针 等 。 在 互联 网 上 ， 大 多 数 DNS 消息 使 用 UDP/IPv4 传输 ， 并 且 被 限制 为 S12 个 字 节 的 
长 度 ， 但 是 一 种 特殊 的 扩展 选项 (EDNS0 ) 提供 了 更 长 的 消息 ， 要 求 支 持 DNS 安全 协议 
(DNSSEC)， 我 们 将 在 第 18 章 中 详细 讨论 。 

DNS 支持 一 些 特殊 的 功能 ， 如 区 域 传 输 和 动态 更 新 。 区 域 传 输 (完整 或 增 量 ) 用 于 允许 
元 余 的 从 服务 器 与 主 服务 器 同步 区 域 的 内 容 ， 主 要 是 为 了 元 余 。 动 态 更 新 允许 应 用 程序 使 用 
在 线 协议 修改 区 域 的 内 容 。 事 实 上 这 种 功能 有 两 种 形式 : 一 种 由 [RFC2136] 标准 化 ， 并 在 企 
业 使 用 ; 一 种 是 非 标 准 的 但 非常 流行 的 动态 DNS 功能 ， 它 允许 用 户 分 配 临 时 IP 地 址 (例如 电 
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缆 或 DSL) 来 获得 一 个 DNS 条 目 ， 所 以 它们 提供 的 服务 可 以 通过 遍及 全 世界 的 名 称 来 发 现 。 

DNS 一 直 受 到 众多 攻击 ， 从 DoS 攻击 ( 它 使 得 DNS 仅 有 有 限 的 能 力 ) 到 DNS 缓存 中 
毒 攻击 ( 它 可 使 恶意 的 服务 器 显得 如 合法 的 )。 已 经 提出 各 种 技术 来 解决 这 一 问题 ， 包 括 加 
密 技 术 (第 18 章 涵盖 ) 和 修改 DNS 服务 器 以 减少 接收 未 经 请 求 的 DNS 响应 。 
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12.1 引言 

到 目前 为 止 ， 我 们 一 直 在 讨论 那些 自身 不 包含 可 靠 传递 数据 机 制 的 协议 。 它 们 可 能 会 使 
用 一 种 像 校 验 和 或 CRC 这 样 的 数学 函数 来 检测 接收 到 的 有 差错 的 数据 ， 但 是 它们 不 尝试 去 
纠正 差错 。 对 于 IP 和 UDP， 根 本 没有 实现 差错 纠正 。 对 于 以 太 网 和 基于 其 上 的 其 他 协议 ， 
协议 提供 一 定 次 数 的 重 试 ， 如 果 还 是 不 成 功 则 放弃 。 

通信 媒介 可 能 会 丢失 或 改变 被 传递 的 消息 ， 在 这 种 环境 下 的 通信 问题 已 经 被 研究 了 多 
年 。 关 于 这 个 课题 的 一 些 最 重要 的 理论 工作 由 克 劳 德 ， 香农 在 1948 年 给 出 [S48]。 这 些 工 作 
普及 了 术语 “比特 "， 并 成 为 信息 理论 (information theory) 领域 的 基础 ， 帮 助 我 们 理解 了 在 
一 个 有 损 (可 能 会 删除 或 改变 比特 ) 信道 里 可 通过 的 信息 量 的 根本 限制 。 信 息 理论 与 编码 理 
论 (coding theory) 的 领域 密切 相关 ， 编 码 理 论 提 供 不 同 的 信息 编码 手段 ， 从 而 使 得 信息 能 
在 通信 信道 里 尽量 免 于 出 错 。 使 用 差错 校正 码 (基本 上 是 添加 一 些 宛 余 的 比特 ， 使 得 即使 某 
些 比特 被 毁 ， 真 实 的 信息 也 可 以 被 恢复 过 来 ) 来 纠正 通信 问题 是 处 理 差错 的 一 种 非常 重要 的 
方法 。 另 一 种 方法 是 简单 地 “尝试 重新 发 送 "， 直 到 信息 最 终 被 接收 。 这 种 方法 ， 称 为 自动 
重复 请 求 (Automatic Repeat Request，ARQ )， 构 成 了 许多 通信 协议 的 基础 ,包括 TCP 在 内 。 


12.1.1 ARQ 和 重 传 


如 果 我 们 考虑 的 不 只 是 单个 通信 信道 ， 而 是 几 个 的 多 跳级 联 ， 我 们 会 发 现 不 只 会 碰 到 前 
面 提 到 的 那 几 种 差错 类 型 (分 组 比特 差错 )， 而 且 还 会 有 更 多 其 他 的 类 型 。 这 些 问 题 可 能 发 生 
在 中 间 路 由 器 上 ， 是 几 种 在 讨论 IP 时 会 遇 到 的 问题 : 分 组 重新 排序 ,分 组 复制 , 分 组 湛 灭 
(丢失 )。 为 在 多 跳 通信 信道 (例如 IP) 上 使 用 而 设计 的 带 纠 错 的 协议 必须 要 处 理 这 些 问题 。 
现在 让 我 们 来 探讨 能 处 理 这 些 问 题 的 协议 机 制 。 在 概括 性 地 讨论 这 些 之 后 ， 我 们 会 探究 它们 
是 如 何 被 TCP 在 互联 网 上 使 用 的 。 

一 个 直接 处 理 分 组 丢失 (和 比特 差错 ) 的 方法 是 重 发 分 组 直到 它 被 正确 接收 。 这 需要 一 
种 方法 来 判断 :( 1 ) 接收 方 是 否 已 收 到 分 组 ; (2 ) 接收 方 接收 到 的 分 组 是 否 与 之 前 发 送 方 
发 送 的 一 样 。 接 收 方 给 发 送 方 发 信号 以 确定 自己 已 经 接收 到 一 个 分 组 ， 这 种 方法 称 为 确认 
(acknowledgment), 3} ACK。 最 基本 的 形式 是 ， 发 送 方 发 送 一 个 分 组 ， 然 后 等 待 一 个 ACK。 
当 接 收 方 接收 到 这 个 分 组 时 ， 它 发 送 对 应 的 ACK。 当 发 送 方 接收 到 这 个 ACK， 它 再 发 送 另 
一 个 分 组 ， 这 个 过 程 就 这 样 继 续 。 这 里 会 有 一 些 有 意思 的 问题 : (1 ) 发 送 方 对 一 个 ACK 应 
该 等 待 多 长 时 间 ? (2) WR ACK ERT EAA? (3) 如 果 分 组 被 接收 到 了 ， 但 是 里 面 有 错 
怎么 办 ? 

正如 我 们 将 看 到 的 ， 第 一 个 问题 其 实 挺 深 奥 的 。 决 定 去 等 待 多 长 时 间 与 发 送 方 期 待 
(expect) 为 一 个 ACK 等 待 多 长 时 间 有 关 。 现 在 确定 这 个 时 间 可 能 比较 困难 ， 因 此 我 们 推迟 
对 这 个 技术 的 讨论 ， 直 到 我 们 在 后 面 ( 见 第 14 章 ) 详细 讨论 TCP。 第 二 个 问题 的 答案 比较 
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容易 : 如 果 一 个 ACK 丢失 了 ， 发 送 方 不 能 轻易 地 把 这 种 情况 与 原 分 组 丢失 的 情况 区 分 开 来 ， 
所 以 它 简单 地 再 次 发 送 原 分 组 。 当 然 ， 这 样 的 话 ， 接 收 方 可 能 会 接收 到 两 个 或 更 多 的 拷贝 ， 
因此 它 必须 准备 好 处 理 这 种 情况 ( 见 下 一 段 )。 至 于 第 三 个 问题 ,我 们 可 以 借助 在 12.1 节 中 
提 到 的 编码 技术 来 解决 。 使 用 编码 来 检测 一 个 大 的 分 组 中 的 差错 (有 很 大 的 概率 ) 一 般 都 很 
简单 ， 仅 使 用 比 其 自身 小 很 多 的 一 些 比特 即 可 纠正 。 更 简单 的 编码 一 般 不 能 纠正 差错 ， 但 是 
能 检测 它们 。 这 就 是 校 验 和 与 CRC 会 如 此 受 欢迎 的 原因 。 然 后 ， 为 了 检测 分 组 里 的 差错 ， 
简 们 使 用 一 种 校 验 和 形式 。 当 一 个 接收 方 接收 到 一 个 含有 差错 的 分 组 时 ， 它 不 发 送 ACK。 
最 后 ， 发 送 方 重 发 完整 到 达 的 无 差错 的 分 组 。 

到 目前 为 止 即使 这 种 简单 的 场景 ， 接 收 方 都 可 能 接收 到 被 传送 分 组 的 重复 (duplicate) 
副本 。 这 个 问题 要 使 用 序列 号 (sequence number) 来 处 理 。 基 本 上 ， 在 被 源 端 发 送 时 ， 每 个 
唯一 的 分 组 都 有 一 个 新 的 序列 号 ， 这 个 序列 号 由 分 组 自身 一 直 携 带 着 。 接 收 方 可 以 使 用 这 个 
序列 号 来 判断 它 是 否 已 经 见 过 这 个 分 组 ， 如 果 见 过 则 丢弃 它 。 

到 目前 为 止 介绍 的 协议 是 可 靠 的 ， 但 效率 不 太 高 。 如 果 从 发 送 方 到 接收 方 传 递 即 使 一 个 [580 
很 小 的 分 组 都 要 用 很 长 时 间 (推迟 或 延迟 ) 的 话 (如 一 秒 或 两 秒 ， 对 卫星 链 路 来 说 并 非 不 正 
常 )， 考 虑 一 下 那 会 怎样 。 发 送 方 可 以 注入 一 个 分 组 到 通信 路 径 ， 然 后 停 下 来 等 待 直到 它 收 
到 ACK。 这 个 协议 因此 被 称 为 “停止 和 等 待 ”。 假 设 没有 分 组 在 传输 中 丢失 和 无 可 挽回 地 损 
害 ， 该 协议 的 吞吐 量 性 能 (每 单位 时 间 发 送 在 网 络 中 的 数据 量 ) 与 M/R 成 正比 ，M 是 分 组 大 
小 ,RR 是 往返 时 间 (RTT)。 如 果 有 分 组 丢失 和 损害 的 话 ， 情 况 甚至 更 糟糕 :“ 吞 吐 质 ”( 每 单 
位 时 间 传 送 的 有 用 数据 量 ) 明显 要 比 吞 吐 量 要 低 。 

对 于 不 会 损害 和 丢失 太 多 分 组 的 网 络 来 说 ， 低 吞吐 量 的 原因 是 网 络 经 常 没有 处 于 繁忙 
状态 。 情 况 与 使 用 装配 流水 线 时 不 出 一 个 完整 产品 就 不 准 新 的 工作 进入 类 似 。 流 水 线 大 部 分 
时 间 是 空闲 的 。 我 们 进一步 对 比 ， 很 明显 ， 如 果 我 们 允许 同一 时 间 有 多 个 工作 单元 进入 流水 
线 ， 就 可 以 做 得 更 好 。 对 网 络 通信 来 说 也 是 一 样 的 一 一 如 果 我 们 允许 多 个 分 组 进入 网 络 ， 就 
可 以 使 它 “ 更 繁忙 ”"， 从 而 得 到 更 高 的 吞吐 量 。 

很 明显 ， 允 许多 个 分 组 同时 进入 网 络 使 事情 变 得 复杂 。 现 在 发 送 方 必须 不 仅 要 决定 什么 
时 间 注 入 一 个 分 组 到 网 络 中 ， 还 要 考虑 注入 多 少 个 。 并 且 必 须要 指出 在 等 待 ACK 时 ， 怎 样 
维持 计时 器 ， 同 时 还 必须 要 保存 每 个 还 没 确认 的 分 组 的 一 个 副本 以 防 需 要 重 传 。 接 收 方 需要 
有 一 个 更 复杂 的 ACK 机 制 : 可 以 区 分 哪些 分 组 已 经 收 到 ， 哪 些 还 没有 。 接 收 方 可 能 需要 一 
个 更 复杂 的 缓存 (分 组 保存 ) 机 制 一 一 允许 维护 “次 序 杂乱 ”的 分 组 (那些 比 预 想 要 先 到 的 
分 组 更 早 到 达 的 分 组 ， 因 为 丢 包 和 次 序 重 排 的 原因 )， 除 非 简单 地 抛弃 这 些 分 组 ， 而 这 样 做 
是 很 没 效率 的 。 还 有 其 他 一 些 没有 这 么 明显 的 问题 。 如 果 接 收 方 的 接收 速率 比 发 送 方 的 发 送 
速率 要 慢 怎 么 办 ? 如 果 发 送 方 简单 地 以 很 高 的 速率 发 送 很 多 分 组 ， 接 收 方 可 能 会 因 处 理 或 内 
存 的 限制 而 丢掉 这 些 分 组 。 中 间 的 路 由 器 也 会 有 相同 的 问题 。 如 果 网 络 基础 设施 处 理 不 了 发 
送 方 和 接收 方 想 要 使 用 的 数据 发 送 率 怎么 办 ? 


12.1.2 分 组 窗口 和 滑动 窗口 


为 了 解决 所 有 这 些 问题 ,我 们 以 假设 每 个 分 组 有 一 个 序列 号 开始 ， 正 如 前 面 所 描述 的 。 
我 们 定义 一 个 分 组 窗口 (window) 作为 已 被 发 送 方 注入 但 还 没完 成 确认 (如 ， 发 送 方 还 从 没收 
到 过 它们 的 ACK) 的 分 组 (或 者 它们 的 序列 号 ) 的 集合 。 我 们 把 这 个 窗口 中 的 分 组 数量 称 为 
窗口 大 小 (window size)。 术 语 窗口 来 自 这 样 的 想法 : 如 果 你 把 在 一 个 通信 对 话 中 发 送 的 所 有 
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分 组 排 成 长 长 的 一 行 ， 但 只 能 通过 一 个 小 孔 来 观察 它们 ， 你 就 只 能 看 到 它们 的 一 个 子 集 一 一 
像 通过 一 个 窗口 观看 一 样 。 发 送 方 的 窗口 (以 及 其 他 分 组 队列 ) 可 画图 描述 成 图 12-1 那样 。 


左 窗口 边界 右 窗 口 边界 
| 





3 $i 
已 发 送 并 确认 。 当前 窗口 ， 大 小 等 了 3 。 仍 未 被 发 送 


图 12-1 发 送 方 窗口 ， 显 示 了 哪些 分 组 将 要 被 发 送 (或 已 经 发 送 )， 哪 些 尚未 发 送 ， 以 及 哪些 已 经 发 送 
并 确认 。 在 这 个 例子 里 ,窗口 大 小 被 确定 为 三 个 分 组 


这 个 图 显示 了 当前 三 个 分 组 的 窗口 ， 整 个 窗口 大 小 是 3。3 号 分 组 已 经 被 发 送 和 确认 ， 
所 以 由 发 送 方 保存 的 它 的 副本 可 以 被 释放 。 分 组 7 在 发 送 方 已 经 准备 好 ， 但 还 没 被 发 送 ， 
为 它 还 没 “ 进 入 ”窗口 。 现 在 如 果 我 们 想象 数据 开始 从 发 送 方 流 到 接收 方 ，ACK 开始 以 相反 
的 方向 流动 ， 发 送 方 可 能 下 一 步 就 接收 到 一 个 分 组 4 的 ACK。 当 这 发 生 时 ,窗口 向 右边 “ 滑 
动 ”一 个 分 组 ,意味 着 分 组 4 的 副本 可 以 释放 了 ， 而 分 组 7 可 以 被 发 送 了 。 和 窗口 的 这 种 滑动 
给 这 种 类 型 的 协议 增加 了 一 个 名 字 ， 滑 动 窗口 (sliding window) 协议 。 

这 种 滑动 窗口 方法 可 用 于 对 付 到 目前 为 止 描 述 过 的 许多 问题 。 一 般 来 说 ， 这 个 窗口 结 
构 在 发 送 方 和 接收 方 都 会 有 。 在 发 送 方 ， 它 记录 着 哪些 分 组 可 被 释放 ， 哪 些 分 组 正在 等 待 
ACK， 以 及 哪些 分 组 还 不 能 被 发 送 。 在 接收 方 ， 它 记录 着 哪些 分 组 已 经 被 接收 和 确认 ， 哪 些 
分 组 是 下 一 步 期 望 的 (和 已 经 分 配 多 少 内 存 来 保存 它们 )， 以 及 哪些 分 组 即使 被 接收 也 将 会 因 
内 存 限制 而 被 丢弃 。 尽 管 窗口 结构 便于 记录 在 发 送 方 和 接收 方 之 间 流 动 的 数据 ， 但 是 关于 窗 
口 应 多 大 ， 或 者 如 果 接 收 方 或 者 网 络 处 理 不 过 来 发 送 方 的 数据 率 时 会 发 生 什 么 ， 它 都 设 有 提 
供 指 导 建 议 。 现 在 我 们 应 该 看 看 这 些 怎 样 关 联 在 一 起 。 


12.13 ”变量 窗口 : 流量 控制 和 拥塞 控制 


为 了 处 理 当 接收 方 相对 发 送 方太 慢 时 产生 的 问题 ， 我 们 介绍 一 种 方法 ， 在 接收 方 跟 不 上 
时 会 强迫 发 送 方 慢 下 来 。 这 称 为 流量 控制 (flow control)， 该 控制 经 常 以 下 述 两 种 方式 之 一 来 


”进行 操作 。 一 种 方式 称 为 基于 速率 (rate-based) 流量 控制 ， 它 是 给 发 送 方 指定 某 个 速率 ， 同 


时 确保 数据 永远 不 能 超过 这 个 速率 发 送 。 这 种 类 型 的 流量 控制 最 适合 流 应 用 程序 ， 可 被 用 于 
广播 和 组 播发 现 ( 见 第 9 章 )。 

另 一 种 流量 控制 的 主要 形式 叫 基于 窗口 (window-based) 流量 控制 ， 是 使 用 滑动 窗口 时 
最 流行 的 方法 。 在 这 种 方法 里 ， 窗 口 大 小 不 是 固定 的 ， 而 是 允许 随时 间 而 变动 的 。 为 了 使 用 
这 种 技术 进行 流量 控制 ， 必 须 有 一 种 方法 让 接收 方 可 以 通知 发 送 方 使 用 多 大 的 窗口 。 这 一 般 
称 为 窗口 通告 (window advertisement)， 或 简单 地 称 为 窗口 更 新 ( window update)。 发 送 方 
〈 即 窗口 通告 的 接收 者 ) 使 用 该 值 调整 其 窗口 大 小 。 逻 辑 上 讲 ， 一 个 窗口 更 新 是 与 我 们 前 面 讨 
论 过 的 ACK 分 离 的， 但 是 实际 上 窗口 更 新 和 ACK 是 由 同一 个 分 组 携带 的 ， 意 味 着 发 送 方 往 
往 会 在 它 的 窗口 滑动 到 右边 的 同时 调整 它 的 大 小 。 

如 果 我 们 考虑 到 在 发 送 方 修 改 窗口 大 小 会 带 来 的 影响 ， 就 可 以 很 明显 地 知道 这 是 怎样 
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达到 流量 控制 的 。 在 没收 到 它们 中 任何 一 个 的 ACK 之 前 ， 发 送 方 允许 注入 WASP BIS 
中 。 如 果 发 送 方 和 接收 方 足够 快 ， 网 络 中 没有 丢失 一 个 分 组 以 及 有 无 穷 的 空间 的 话 ， 这 意味 
着 通信 速率 正比 于 (SW/R) b/s， 这 里 万 是 窗口 大 小 ，5 是 分 组 大 小 ( 按 比特 算 )，R 是 往返 时 
间 (RTT)。 当 来 自 接收 方 的 窗口 通告 夹带 着 发 送 方 的 值 不 时 ， 那 么 发 送 方 的 全 部 速率 就 被 
限制 而 不 能 超越 接收 方 。 这 种 方法 可 以 很 好 地 保护 接收 方 ， 但 是 对 于 中 间 的 网 络 呢 ? 在 发 送 
方 和 接收 方 之 间 可 能 会 有 有 限 内 存 的 路 由 器 ， 它 们 与 低速 网 络 链 路 抗争 着 。 当 这 种 情况 出 现 
果 ， 发 送 方 的 速率 可 能 超过 某 个 路 由 器 的 能 力 ， 从 而 导致 于 包 。 这 由 一 种 特殊 的 称 为 拥塞 控 
制 (congestion control) 的 流量 控制 形式 来 处 理 。 

拥塞 控制 涉及 发 送 方 减低 速度 以 不 至 于 压 垮 其 与 接收 方 之 间 的 网 络 。 回 想 我 们 关于 流量 
控制 的 讨论 ， 我们 使 用 一 个 窗口 通告 来 告 之 发 送 方 为 接收 方 减 慢 速 度 。 这 称 为 明确 (explicit) 
发 信 ， 因 为 有 一 个 协议 字段 专用 于 通知 发 送 方正 在 发 生 什 么 。 另 一 个 选项 可 能 被 发 送 方 用 于 
猜测 〈guess) 它 需 要 慢 下 来 。 这 种 方法 涉及 隐 性 (implicit) 发 信 一 一 涉及 根据 其 他 某 些 证 据 
来 决定 减 慢 速度 。 

数据 报 类 型 的 网 络 或 更 一 般 的 与 之 关联 的 排队 理论 ( queuing theory) 中 的 拥塞 控制 问题 
仍然 是 这 些 年 的 一 个 主要 研究 课题 ， 它 甚至 不 太 可 能 完全 解决 所 有 情况 。 在 这 里 讨论 关于 流 
量 控制 的 所 有 选择 和 方法 也 并 不 现实 。 有 兴趣 的 读者 可 参考 [J90]、[K97] 和 [区 75]。 在 第 16 
章 我 们 将 更 详细 地 探讨 实际 用 于 TCP 中 的 拥塞 控制 技术 ， 以 及 这 些 年 来 出 现 的 许多 变 体 。 


12.1.4 ”设置 重 传 超 时 


基于 重 传 的 可 靠 协 议 的 设计 者 要 面 对 的 一 个 最 重要 的 性 能 问题 是 ， 要 等 待 多 久 才能 判定 
一 个 分 组 已 丢失 并 将 它 重 发 。 用 另 一 种 方式 说 ， 重 传 超时 应 该 是 多 大 ? 直观 上 看 ， 发 送 方 在 
重 发 一 个 分 组 之 前 应 等 待 的 时 间 量 大 概 是 下 面 时 间 的 总 和 : 发 送 分 组 所 用 的 时 间 ， 接 收 方 处 
理 它 和 发 送 一 个 ACK 所 用 的 时 间 ，ACK 返回 到 发 送 方 所 用 的 时 间 ， 以 及 发 送 方 处 理 ACK 
所 用 的 时 间 。 不 幸 的 是 ,实际 上 这 些 时 间 没 有 一 个 是 可 以 确切 知道 的 。 更 糟 的 是 ， 它 们 中 的 
某 些 或 全 部 会 随 着 来 自 终 端 主机 或 路 由 器 的 额外 负载 的 增加 或 减少 而 随时 改变 。 

让 用 户 去 告诉 协议 实现 在 所 有 情况 下 的 每 个 时 刻 应 取 什 么 超时 时 间 (或 使 它们 保持 最 
新 )， 这 是 不 现实 的 ， 一 个 更 好 的 策略 是 让 协议 实现 尝试 去 估计 它们 。 这 称 为 往返 时 间 估 计 
( round-trip-time estimation)， 这 是 一 个 统计 过 程 。 总 的 来 说 ， 选 择 一 组 RTT 样本 的 样本 均值 
作为 真实 的 RTT 是 最 有 可 能 的 。 注 意 到 这 个 平均 值 很 自然 地 会 随 着 时 间 而 改变 ( 它 不 是 静态 
的 )， 因 为 通信 穿 过 网 络 的 路 径 可 能 会 改变 。 

做 出 对 RTT 的 一 些 估 计 之 后 ， 关 于 设置 实际 的 用 于 触发 重 传 的 超时 取 值 问题 依然 存在 。 
如 果 我 们 回想 一 下 均值 的 定义 ,会 知道 它 绝 不 可 能 是 一 组 样本 的 极 值 (除非 它们 全 部 一 样 )。 
所 以 ,把 重 传 计时 器 的 值 设置 成 正好 等 于 平均 估计 量 是 不 合理 的 ， 因 为 很 有 可 能 许多 实际 的 
RTT 将 会 比较 大 ， 从 而 会 导致 不 必要 的 重 传 。 很 明显 ， 超 时 应 该 设置 成 比 均值 要 大 的 某 个 
值 ， 但 是 这 个 值 与 均值 的 确切 关系 是 什么 (或 者 甚至 直接 就 使 用 均值 ) 还 不 清楚 。 超 时 设置 
得 太 大 也 是 不 可 取 的 ， 因 为 这 反 过 来 会 导致 网 络 变 得 空闲 ， 从 而 降低 吞吐 量 。 对 这 个 话题 的 
进一步 探究 留 到 第 14 章 ， 我 们 在 那里 会 探讨 TCP 是 怎样 实际 地 处 理 这 个 问题 的 。 


12.2 TCP 的 引入 
我 们 现在 对 影响 可 靠 传输 的 问题 有 了 大 体 的 了 解 ， 下 面 看 一 下 它们 是 怎样 在 TCP 中 体 


416 #12 


BRAY, VAR TCP 会 给 互联 网 应 用 程序 提供 什么 类 型 的 服务 。 我 们 还 要 查看 TCP 头 部 中 的 字 
段 ， 了 解 有 多 少 个 到 目前 为 止 我 们 已 经 见 过 的 概念 (如 ACK、 窗 口 通告 ) 可 在 头 部 描述 中 捕 
捉 到 。 在 随后 的 章节 ， 我 们 会 更 详细 地 检查 所 有 这 些 头 部 字段 。 

我 们 对 TCP 的 描述 从 这 一 章 开始 ， 并 在 接 下 来 的 五 章 中 继续 讨论 。 第 13 章 描述 一 个 
TCP 连接 是 怎样 建立 和 结束 的 。 第 14 章 详细 说 明 TCP 是 怎样 估计 每 个 连接 的 RTT 和 怎样 基 
于 这 个 估计 设置 重 传 超时 的 。 第 15 章 考察 正常 的 数据 传输 ， 以 “交互 式 ”应 用 程序 开始 ( 例 
如 聊天 程序 )， 然 后 是 窗口 管理 和 流量 控制 ， 这 被 应 用 于 交互 式 和 “大 块 ”数据 流 (比如 文件 
传输 ) 两 种 应 用 程序 以 及 TCP 的 紧急 机 制 (urgent mechanism) 一 一 它 允 许 发 送 方 指定 数据 流 
中 的 某 些 数据 作为 特殊 数据 。 第 16 章 考察 TCP 里 的 拥塞 控制 算法 ， 这 些 算法 在 网 络 很 繁忙 
的 时 候 帮 助 降 低 丢 包 率 。 这 一 章 还 讨论 了 一 些 改动 ， 这 些 改动 被 提出 来 以 增加 快速 网 络 的 吞 
吐 量 或 改进 易 损耗 (如 无 线 ) 网 络 的 弹性 。 最 后 ， 第 17 章 显示 TCP 如 何在 没有 数据 流动 时 
保持 连接 的 活动 性 。 

TCP 的 原始 规范 是 [RFC0793]， 尽 管 这 个 REC 的 一 些 错误 已 经 在 主机 请 求 RFC PRE 
改过 来 [RFC1122]。 从 那 以 后 ，TCP 的 一 些 规范 就 一 直 被 修改 和 扩展 以 包含 透明 和 改进 的 
拥塞 控制 行为 [RFC5681][RFC3782][RFC3517][RFC3390][RFC3168]、 重 传 超 时 [RFC6298] 
[RFC5682][RFC4015]、 在 NAT 的 操作 [RFC5382]、 确 认 行 为 [RFC2883]、 安 全 [RFC6056] 
[RFC5927][RFC5926]、 连 接管 理 [RFC5482] 以 及 紧急 机 制 实现 指导 方针 [RFC6093]。 同 时 还 
有 丰富 的 实验 性 修改 ,覆盖 了 重 传 行为 [RFC5827][RFC3708]、 拥 塞 检 测 和 控制 [RFC5690] 
[RFC5562][RFC4782][RFC3649][RFC2861] 以 及 其 他 特性 。 最 后 ， 在 探究 TCP 如 何 利用 多 重 
并 发 网 络 层 路 径 方面 也 做 了 工作 [RFC6182]。 


12.2.1 TCP 服务 模型 


虽然 TCP 和 UDP 使 用 相同 的 网 络 层 (IPv4 或 IPv6 ), 但 是 TCP 给 应 用 程序 提供 了 一 种 
与 UDP 完全 不 同 的 服务 。TCP 提供 了 一 种 面向 连接 的 ( connection-oriented)、 可 靠 的 字 节 流 
服务 。 术 语 “ 面 向 连接 的 ”是 指使 用 TCP 的 两 个 应 用 程序 必须 在 它们 可 交换 数据 之 前 ， 通 过 
相互 联系 来 建立 一 个 TCP 连接 。 最 典型 的 比喻 就 是 拨打 一 个 电话 号 码 ， 等 待 另 一 方 接听 电 
话 并 说 “ 喂 ”， 然 后 再 说 “ 找 谁 ?”。 这 正 是 一 个 TCP 连接 的 两 个 端点 在 互相 通信 。 像 广播 和 
组 播 ( 见 第 9 章 ) 这 些 概念 在 TCP 中 都 不 存在 。 

TCP 提供 一 种 字 节 流 抽象 概念 给 应 用 程序 使 用 。 这 种 设计 方案 的 结果 是 ， 没 有 由 TCP 
自动 插入 的 记录 标志 或 消息 边界 ( 见 第 1 章 )。 一 个 记录 标志 对 应 着 一 个 应 用 程序 的 写 范围 
指示 。 如 果 应 用 程序 在 一 端 写 人 10 FH, MASA 20 字 节 ， 再 随后 写 人 $0 字 节 ， 那 么 在 
连接 的 另 一 端的 应 用 程序 是 不 知道 每 次 写 人 的 字 节 是 多 少 的 。 例 如 ， 另 一 端 可 能 会 以 每 次 20 
字 节 分 四 次 读 人 这 80 字 节 或 以 其 他 一 些 方式 读 和 人 人。 一 端 给 TCP 输入 字 节 流 ， 同 样 的 字 节 流 
会 出 现在 另 一 端 。 每 个 端点 独立 选择 自己 的 读 和 写 大 小 。 

TCP 根本 不 会 解读 字 节 流 里 的 字 节 内 容 。 它 不 知道 正在 交换 的 数据 字 节 是 不 是 二 进 制 数 
据 、ASCII 字 符 、EBCDIC 字符 或 其 他 东西 。 对 这 个 字 节 流 的 解读 取决 于 连接 中 的 每 个 端点 
的 应 用 程序 。 尽 管 不 再 推荐 使 用 ， 可 TCP 确实 是 支持 以 前 提 到 过 的 紧急 机 制 。 


12.2.2 TCP 中 的 可 靠 性 
通过 使 用 刚才 描述 过 的 那些 技术 的 特定 变种 ，TCP 提供 了 可 靠 性 。 因 为 它 提 供 一 个 字 节 
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流 接口 ，TCP 必须 把 一 个 发 送 应 用 程序 的 字 节 流转 换 成 一 组 IP 可 以 携带 的 分 组 。 这 被 称 为 
组 包 (packetization)。 这 些 分 组 包含 序列 号 ， 该 序列 号 在 TCP 中 实际 代表 了 每 个 分 组 的 第 一 
个 字 节 在 整个 数据 流 中 的 字 节 偏 移 ， 而 不 是 分 组 号 。 这 人 允许 分 组 在 传送 中 是 可 变 大 小 的 ， 并 
允许 它们 组 合 ， 称 为 重新 组 包 (repacketization)。 应 用 程序 数据 被 打 散 成 TCR 认为 的 最 佳 大 
小 的 块 来 发 送 ， 一般 使 得 每 个 报 文 段 按照 不 会 被 分 片 的 单个 I 了 P 层 数据 报 的 大 小 来 划分 。 这 
与 UDP 不 同 ， 应 用 程序 每 次 写 人 通常 就 产生 一 个 UDP 数据 ， 其 大 小 就 是 写 人 的 那么 大 (加 
里 头 部 )。 由 TCP 传 给 卫 的 块 称 为 报 文 段 (segment， 见 图 12-2 ) 。 在 第 15 章 我 们 会 看 到 
TCP 如 何 判定 一 个 报 文 段 的 大 小 。 

TCP 维持 了 一 个 强制 的 校 验 和 ， 该 校 验 和 涉及 它 的 头 部 、 任 何 相关 应 用 程序 数据 和 IP 
头 部 的 所 有 字段 。 这 是 一 个 端 到 端的 伪 头 部 ， 它 用 于 检测 传送 中 引入 的 比特 差错 。 如 果 一 个 
带 无 效 校 验 和 的 报 文 段 到 达 ， 那 么 TCP 会 丢弃 它 ， 不 为 被 丢弃 的 分 组 发 送 任何 确认 。 然 而 ， 
TCP 接收 端 可 能 会 对 一 个 以 前 的 (已 经 确认 的 ) 报 文 段 进行 确认 ， 以 帮助 发 送 方 计算 它 的 拥 
塞 控制 ( 见 第 16 章 )。TCP 校 验 和 使 用 的 数学 函数 与 其 他 互联 网 协议 (UDP, ICMP 等 ) 一 样 。 
对 于 大 数据 的 传送 ， 对 这 个 校 验 和 是 否 不 够 强壮 的 担心 是 存在 的 [SP00]， 所 以 仔细 的 应 用 程 
序 应 该 应 用 自己 的 差错 保护 方法 (如 ， 更 强 的 校 验 和 或 CRC), 或 者 使 用 一 种 中 间 层 来 达到 
同样 的 效果 (如 ， 见 [RFC5044])。 

当 TCP 发 送 一 组 报 文 段 时 ， 它 通常 设置 一 个 重 传 计 时 器 ， 等 待 对 方 的 确认 接收 。TCP 
不 会 为 每 个 报 文 段 设置 一 个 不 同 的 重 传 计时 器 。 相 反 ， 发 送 一 个 窗口 的 数据 ， 它 只 设置 一 个 
计时 器 ， 当 ACK 到 达 时 再 更 新 超时 。 如 果 有 一 个 确认 没有 及 时 接收 到 ， 这 个 报 文 段 就 会 被 
重 传 。 在 第 14 章 我 们 将 更 详细 地 查看 TCP 的 自 适应 超时 和 重 传 策略 。 

“4 TCP 接收 到 连接 的 另 一 端的 数据 时 ， 它 会 发 送 一 个 确认 。 这 个 确认 可 能 不 会 立即 发 

而 一 般 会 延迟 片刻 。TCP 使 用 的 ACK 是 累积 的 ， 从 某 种 意义 来 讲 ， 一 个 指示 字 节 号 N 
的 ACK 暗示 着 所 有 直到 的 字 节 (但 不 包含 N) 已 经 成 功 被 接收 了 。 这 对 于 ACK 丢失 来 说 
带 来 了 一 定 的 鲁 棒 性 一 一 如 果 一 个 ACK 丢失 ,很 有 可 能 后 续 的 ACK 就 足以 确认 前 面 的 报 文 
ET . 

TCP 给 应 用 程序 提供 一 种 双 工 服务 。 这 就 是 说 数据 可 向 两 个 方向 流动 ， 两 个 方向 互相 
独立 。 因 此 ， 连 接 的 每 个 端点 必须 对 每 个 方向 维持 数据 流 的 一 个 序列 号 。 一 旦 建立 了 一 个 连 
接 ， 这 个 连接 的 一 个 方向 上 的 包含 数据 流 的 每 个 TCP 报 文 段 也 包含 了 相反 方向 上 的 报 文 段 
的 一 个 ACK。 每 个 报 文 段 也 包含 一 个 窗口 通告 以 实现 相反 方向 上 的 流量 控制 。 为 此 ， 在 一 
个 连接 中 ， 当 一 个 TCP 报 文 段 到 达 时 ， 窗 口 可 能 向 前 滑动 ， 窗 口 大 小 可 能 改变 ， 同 时 新 数 
据 可 能 已 到 达 。 正 如 我 们 将 在 第 13 章 所 见 ， 一 个 完整 的 TCP 连接 是 双向 和 对 称 的 ， 数 据 可 
以 在 两 个 方向 上 平等 地 流动 。 

使 用 序列 号 ， 一 个 TCP 接收 端 可 丢弃 重复 的 报 文 段 和 记录 以 杂乱 次 序 到 达 的 报 文 段 。 
回想 一 下 ， 任 何 反常 情况 都 会 发 生 ， 因 为 TCP E IP RAGE FRC, IP 不 提供 重复 消 
除 或 保证 次 序 正 确 的 功能 。 然 而 ， 因 为 TCP 是 一 个 字 节 流 协议 ，TCP 绝 不 会 以 杂乱 的 次 序 
给 接收 应 用 程序 发 送 数据 。 因 此 ，TCP 接收 端 可 能 会 被 迫 先 保持 大 序列 号 的 数据 不 交 给 应 用 
程序 ， 直 到 缺失 的 小 序列 号 的 报 文 段 (一 个 “ 洞 ”) 被 填 满 。 

我 们 现在 开始 观察 TCP 的 一 些 细节 。 这 一 章 将 只 介绍 TCP 的 封装 和 头 部 结构 ， 其 他 细 
节 出 现在 后 面 的 五 章 中 。TCP 可 与 IPv4 或 了 Pv6 一 起 使 用 ， 同 时 它 使 用 的 伪 头 部 (与 UDP 的 
类 似 ) 在 IPv4 中 和 IPv6 中 都 是 强制 使 用 的 。 
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12.3 TCP 头 部 和 封装 
图 12-2 显示 了 TCP 在 IP 数据 报 中 的 封装 。 





TCP 报 文 段 


IP 头 部 协议 ( IPv4 ) ys R 
或 下 一 个 头 部 (IPv6) TCP ( 应 用 程序 ) 数据 


(IPv4 为 20 字 节 , 不 带 (20 字 节 ， 
选项 ; IPv6 为 40 字 节 ) ”不 带 选 项 ) 








IP 数 据 报 
图 12-2 TCP 头 部 紧 跟 着 IP 头 部 或 IPv6 扩展 头 部 ， 经 常 是 20 字 节 长 (不 带 TCP 选项 )。 带 选项 的 话 ， 
TCP 头 部 可 达 60 字 节 。 常 见 选 项 包括 最 大 上段 大 小 、 时 间 稚 、 窗 口 缩放 和 选择 性 ACK 


头 部 本 身 明 显要 比 在 第 10 章 我 们 见 过 的 UDP 的 头 部 更 复杂 。 这 并 不 很 令 人 惊讶 ， 因 
为 TCP 是 一 个 明显 要 更 复杂 的 协议 ， 它 必须 保持 连接 的 每 一 端 知 道 (同步 ) 最 新 状态 。 如 
图 12-3 所 示 。 


全 二 15 16 31 


源 端口 目的 端口 
(16 位 ) (16 位 ) 


sorl re o [CPE |S] i 
(4 位 ) | (4 位 ) |REBIGIRJH|T|NIN| 中 ) me 
TCP 校 验 和 
(16 位 ) ( 16 位) 


| 选项 
(可 变量 ) 
图 12-3 TCP 头 部 。 它 的 标准 长 度 是 20 字 节 ， 除 非 出 现 选项 。 头 部 长 度 (Header Length) 字段 以 
32 位 字 为 单位 给 出 头 部 的 大 小 (最 小 值 是 5)。 带 阴影 的 字段 (确认 号 (Acknowledgment 
Number)、 窗 口 大 小 ( Window Size) 以 及 ECE 位 和 ACK 位 ) 用 于 与 该 报 文 段 的 发 送 方 关联 
的 相反 方向 上 的 数据 流 


每 个 TCP 头 部 包含 了 源 和 目的 端口 号 。 这 两 个 值 与 耻 头 部 中 的 源 和 目的 IP 地 址 一 起 ， 
唯一 地 标识 了 每 个 连接 。 在 TCP 术语 中 ， 一 个 IP 地 址 和 一 个 端口 的 组 合 有 时 被 称 为 一 个 端 
点 ( endpoint) 或 套 接 字 ( socket)。 后 者 出 现在 [RFC0793] 中 ,最终 被 Berkeley 系列 的 网 络 
通信 编程 接口 所 采用 (现在 经 常 被 称 为 “ Berkeley 套 接 字 ”)。 每 个 TCP 连接 由 一 对 套 接 字 
或 端点 (四 元 组 ， 由 客户 机 IP 地址、 客户 机 端口 号 、 服 务 器 IP 地 址 以 及 服务 器 端口 号 组 成 ) 
唯一 地 标识 。 这 个 事实 在 我 们 观察 一 个 TCP 服务 器 是 如 何 做 到 与 多 个 客户 机 通信 的 时 候 将 
会 变 得 很 重要 ( 见 第 13 章 )。 

序列 号 (Sequence Number) 字段 标识 了 TCP 发 送 端 到 TCP 接收 端的 数据 流 的 一 个 字 
节 ， 该 字 节 代表 着 包含 该 序列 号 的 报 文 段 的 数据 中 的 第 一 个 字 节 。 如 果 我 们 考虑 在 两 个 应 用 
程序 之 间 的 一 个 方向 上 流动 的 数据 流 ，TCP 给 每 个 字 节 赋予 一 个 序列 号 。 这 个 序列 号 是 一 
个 32 位 的 无 符号 数 ， 到 达 22 - 1 后 再 循环 回 到 0。 因 为 每 个 被 交换 的 字 节 都 已 编号 ， 确 认 
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号 字段 (也 简称 ACK 4 ak ACK 字段 ) 包含 的 值 是 该 确认 号 的 发 送 方 期 待 接收 的 下 一 个 序列 
号 。 即 最 后 被 成 功 接 收 的 数据 字 节 的 序列 号 加 1。 这 个 字段 只 有 在 ACK 位 字段 被 启用 的 情 
况 下 才 有 效 ， 这 个 ACK 位 字段 通常 用 于 除了 初始 和 末尾 报 文 段 之 外 的 所 有 报 文 段 。 发 送 一 
个 ACK 与 发 送 任何 一 个 TCP 报 文 段 的 开销 是 一 样 的 ， 因 为 那个 32 位 的 ACK 号 字段 一 直 都 
是 头 部 的 一 部 分 ，ACK 位 字段 也 一 样 。 

当 建 立 一 个 新 连接 时 ， 从 客户 机 发 送 至 服务 器 的 第 一 个 报 文 段 的 SYN 位 字段 被 启用 。 
还 样 的 报 文 段 称 为 SYN 报 文 段 ， 或 简单 地 称 为 SYN。 然 后 序列 号 字段 包含 了 在 本 次 连接 的 
这 个 方向 上 要 使 用 的 第 一 个 序列 号 ， 后 续 序 列 号 和 返回 的 ACK 号 也 在 这 个 方向 上 (回想 一 
下 ， 连 接 都 是 双向 的 )。 注 意 这 个 数字 不 是 0 和 1， 而 是 另 一 个 数字 ， 经 常 是 随机 选择 的 ， 称 
为 初始 序列 号 (Initial Sequence Number, ISN), ISN 不 是 0 和 1， 是 因为 这 是 一 种 安全 措施 ， 
将 会 在 第 13 章 讨 论 。 发 送 在 本 次 连接 的 这 个 方向 上 的 数据 的 第 一 个 字 节 的 序列 号 是 ISN 加 
1， 因 为 SYN 位 字段 会 消耗 一 个 序列 号 。 正 如 我 们 稍 后 将 见 到 的 ， 消 耗 一 个 序列 号 也 意味 着 
使 用 重 传 进行 可 靠 传输 。 因 此 ，SYN 和 应 用 程序 字 节 (还 有 FIN， 稍 后 我 们 将 会 见 到 ) 是 被 
可 靠 传输 的 。 不 消耗 序列 号 的 ACK 则 不 是 。 

TCP 可 以 被 描述 为 “一 种 带 累 积 正 向 确认 的 滑动 窗口 协议 ”。ACK 号 字段 被 构建 用 
于 指明 在 接收 方 已 经 顺序 收 到 的 最 大 字 节 (加 1)。 例 如 ， 如 果 字 节 1 ~ 1024 已 经 接收 成 
功 ， 而 下 一 个 报 文 段 包含 字 节 2049 ~ 3072， 那 么 接收 方 不 能 使 用 规则 的 ACK 号 字段 去 
发 信 告诉 发 送 方 它 接收 到 了 这 个 新 报 文 段 。 然 而 ,现代 TCP 有 一 个 选择 确认 (Selective 
ACKnowledgment, SACK) 选项 ， 可 以 允许 接收 方 告 诉 发 送 方 它 正 确 地 接收 到 了 次 序 杂 乱 
的 数据 。 当 与 一 个 具有 选择 重 发 (selective repeat) 能 力 的 TCP 发 送 方 搭配 时 ， 就 可 以 实 
现 性 能 的 显著 改善 [FF96]。 在 第 14 章 我 们 将 会 看 到 TCP 是 如 何 使 用 重复 确认 (duplicate 
acknowledgments) 以 帮助 它 的 拥塞 控制 和 差错 控制 过 程 的 。 

头 部 长 度 字 段 给 出 了 头 部 的 长 度 ， 以 32 位 字 为 单位 。 它 是 必需 的 ， 因 为 选项 字段 的 长 
度 是 可 变 的 。 作 为 一 个 4 位 的 字段 ，TCP 被 限制 为 只 能 带 60 字 节 的 头 部 。 而 不 带 选 项 ， 大 
小 是 20 字 节 。 

当前 ， 为 TCP 头 部 定义 了 8 位 的 字段 ， 尽 管 一 些 老 的 实现 只 理解 它们 中 的 最 后 6 位 s。 
它们 中 的 一 个 或 多 个 可 被 同时 启用 。 我 们 在 这 里 大 致 提 一 下 它们 的 用 法 ， 在 后 面 的 几 章 里 再 
对 每 个 进行 详细 的 讨论 。 

1. CWR 一 一 拥塞 窗口 减 (发 送 方 降低 它 的 发 送 速 率 ); 见 第 16 章 。 

2. ECE 一 一 ECN 回 显 (发 送 方 接收 到 了 一 个 更 早 的 拥塞 通告 )， 见 第 16 章 。 

3, URG 一 一 紧急 (紧急 指针 字段 有 效 一 一 很 少 被 使 用 ); 见 第 15 章 。 

4. ACK 一 一 确认 (确认 号 字段 有 效 一 一 连接 建立 以 后 一 般 都 是 启用 状态 ) ; 见 第 13 章 和 
第 15 章 。 

5. PSH 一 一 推送 (接收 方 应 尽快 给 应 用 程序 传送 这 个 数据 一 一 没 被 可 靠 地 实现 或 用 到 ) ; 
见 第 15 章 。 

6. RST 一 一 重 置 连接 (连接 取消 ， 经 常 是 因为 错误 ); 见 第 13 章 。 

7. SYN 一 一 用 于 初始 化 一 个 连接 的 同步 序列 号 ; 见 第 13 章 。 

8. FIN 一 一 该 报 文 段 的 发 送 方 已 经 结束 向 对 方 发 送 数据 见 第 13 章 。 


O YE [RFC3540] 作为 一 个 实验 性 的 RFC， 它 也 把 Resv 的 最 低 有 效 位 定义 为 随机 和 (Nonce Sum, NS). 
见 16.12 节 。 
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TCP 的 流量 控制 由 每 个 端点 使 用 窗口 大 小 字段 来 通告 一 个 窗口 大 小 来 完成 。 这 个 窗口 大 
小 是 字 节 数 ， 从 ACK 号 指定 的 ， 也 是 接收 方 想 要 接收 的 那个 字 节 开始 。 这 是 一 个 16 位 的 字 
段 ， 限 制 了 窗口 大 小 到 65 535 字 节 ， 从 而 限制 了 TCP 的 吞吐 量 性 能 。 在 第 15 章 我 们 将 看 到 
窗口 缩放 ( Window Scale) 选项 可 允许 对 这 个 值 进行 缩放 ， 给 高 速 和 大 延迟 网 络 提供 了 更 大 
的 窗口 和 改进 性 能 。 

TCP 校 验 和 字段 覆盖 了 TCP 的 头 部 和 数据 以 及 头 部 中 的 一 些 字 段 ， 使 用 一 个 与 我 们 在 
第 8 章 和 第 10 章 讨 论 的 ICMPv6 与 UDP 使 用 的 相 类 似 的 伪 头 部 进行 计算 。 这 个 字段 是 强制 
的 ， 由 发 送 方 进行 计算 和 保存 ， 然 后 由 接收 方 验证 。TCP 校 验 和 的 计算 算法 与 P、ICMP 和 
UDP(“ 互 联网”) 校 验 和 一 样 。 

紧急 指针 (Urgent Pointer) 字段 只 有 在 URG 位 字段 被 设置 时 才 有 效 。 这 个 “指针 ”是 
一 个 必须 要 加 到 报 文 段 的 序列 号 字段 上 的 正 偏 移 ， 以 产生 紧急 数据 的 最 后 一 个 字 节 的 序列 
号 。TCP 的 紧急 机 制 是 一 种 让 发 送 方 给 另 一 端 提供 特殊 标志 数据 的 方法 。 

最 常见 的 选项 字段 就 是 “最 大 段 大 小 ”选项 ， 称 为 MSS。 连 接 的 每 个 端点 一 般 在 它 发 
送 的 第 一 个 报 文 段 (为 了 建立 该 连接 ，SYN 位 字段 被 设置 的 那个 报 文 段 ) 上 指定 这 个 选项 。 
MSS 指定 该 选项 的 发 送 者 在 相反 方向 上 和 希望 接收 到 的 报 文 段 的 最 大 值 。 在 第 13 章 我 们 将 更 
详细 地 描述 MSS 选项 ， 并 在 第 14 章 和 第 15 章 描述 其 他 一 些 TCP 选项 。 我 们 考查 的 其 他 普 
通 选项 还 包括 SACK 、 时 间 惟 和 窗口 缩放 。 

在 图 12-2 中 我 们 注意 到 TCP 报 文 段 的 数据 部 分 是 可 选 的 。 在 第 13 章 我 们 将 看 到 当 一 
个 连接 被 建立 和 终止 时 ， 交 换 的 报 文 段 只 包含 TCP 头 部 ( 带 或 不 带 选 项 ) 而 没有 数据 。 如 
果 这 个 方向 上 没有 数据 被 传输 ， 那 么 一 个 不 带 任何 数据 的 头 部 也 会 被 用 于 确认 接收 到 的 数 
H ( 称 为 一 个 纯 (pure) ACK)， 同 时 通知 通信 方 改 变 窗口 大 小 ( 称 为 一 个 窗口 更 新 ( window 
update) ) 。 当 一 个 报 文 段 可 不 带 数据 发 送 时 ， 超 时 操作 会 因此 而 产生 一 些 新 情况 。 
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在 有 损 通信 信道 上 提供 可 靠 通 信 的 问题 已 经 被 研究 了 许多 年 。 处 理 差 错 的 两 种 主要 方法 
是 差错 校正 码 和 数据 重 传 。 使 用 重 传 的 协议 必须 也 要 处 理 数 据 丢 失 ， 经 常 通过 设置 一 个 计时 
器 来 进行 ， 同 时 还 必须 要 给 接收 方 安排 一 些 方法 来 告知 发 送 方 它 已 接收 了 什么 。 判 定 等 待 一 
个 ACK 要 多 长 时 间 是 比较 环 手 的 ， 因 为 合适 的 时 间 会 随 着 网 络 路 由 或 端点 上 负载 的 变动 而 
改变 。 现 代 协 议 用 基于 这 些 测量 值 的 一 些 函数 来 估计 往返 时 间 以 及 设置 重 传 计时 器 。 

不 考虑 设置 重 传 计 时 器 的 话 ， 当 同一 时 间 只 有 一 个 分 组 在 网 络 中 时 ， 重 传 协议 是 很 简 
单 ， 但 对 于 延迟 很 高 的 网 络 ， 它 们 的 性 能 会 很 差 。 为 了 更 有 效率 ， 在 一 个 ACK 被 接收 到 之 
前 ， 多 个 分 组 必须 被 注入 网 络 中 。 这 种 方法 更 有 效率 ， 但 也 更 复杂 。 一 种 管理 这 些 复杂 性 的 
典型 方法 是 使 用 滑动 窗口 ， 其 中 分 组 用 序列 号 标志 ， 窗 口 大 小 限制 分 组 数量 。 当 窗口 大 小 基 
于 来 自 接收 方 或 其 他 信号 (比如 被 丢弃 的 分 组 ) 的 回馈 而 改变 时 ， 流 量 控制 和 拥塞 控制 两 者 
就 都 被 实现 了 。 

TCP 提供 一 种 可 靠 、 面 向 连接 、 字 节 流 、 传 输 层 的 服务 〈 通 过 使 用 许多 这 些 技术 而 构 
建 )。 我 们 简单 地 看 了 TCP 头 部 里 的 所 有 字段 ， 了 解 到 它们 中 的 大 多 数 都 与 这 些 可 靠 传递 的 
抽象 概念 有 着 直接 关系 。 我 们 将 在 接 下 来 的 章节 里 详细 考查 它们 。TCP 把 应 用 程序 数据 组 包 
成 报 文 段 ， 发 送 数据 时 设置 超时 ， 确 认 被 其 他 端点 接收 到 的 数据 ， 给 次 序 杂 乱 的 数据 进行 重 
新 排序 ， 丢弃 重复 的 数据 ， 提 供 端 到 端的 校 验 和 。TCP 在 互联 网 中 被 广泛 使 用 ,不 仅 许多 
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流行 的 应 用 程序 使 用 它 ， 例 如 HTTP、SSH/TLS、NetBIOS (NBT——NéetBIOS over TCP), 
Telnet, FTP 以 及 电子 邮件 ( SMTP)， 许 多 分 布 式 文件 共享 程序 (WM, BitTorrent, Shareaza) 
也 使 用 它 。 
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73.1 引言 


TCP 是 一 种 面向 连接 的 单 播 协议 。 在 发 送 数据 之 前 ， 通 信 双 方 必 须 在 彼此 间 建 立 一 条 连 
接 。 本 章 将 详细 地 介绍 TCP 连接 的 概念 ， 以 及 它 的 建立 与 终止 过 程 。 如 前 文 所 述 ，TCP HR 
务 模型 是 一 个 字 节 流 。TCP 必须 检测 并 修补 所 有 在 IP 层 (或 下 面 的 层 ) 产生 的 数据 传输 问题 ， 
比如 丢 包 、 重 复 以 及 错误 。 

由 于 需要 对 连接 状态 进行 管理 (通信 双方 都 需要 维护 连接 的 信息 )，TCP 被 认为 是 一 个 比 
UDP 协议 (参见 第 10 章 ) 复杂 得 多 的 协议 。UDP 是 一 种 无 连接 的 协议 ， 因 此 它 不 需要 连接 的 
建立 与 终止 过 程 。 与 UDP H, TCP 在 妥善 处 理 多 种 TCP 状态 时 需要 面 对 大 量 的 细节 问题 ， 
比如 一 个 连接 何 时 建立 、 正 常 地 终止 ， 以 及 在 无 警告 的 情况 下 重新 启动 。 因 此 ， 这 也 被 认为 是 
两 个 协议 的 主要 区 别 之 一 。 在 后 续 章 节 ， 我 们 将 探讨 一 旦 建立 连接 并 传输 数据 将 会 发 生 什么 。 

在 连接 建立 的 过 程 中 ,通信 双方 需要 交换 一 些 选 项 。 这 些 选 项 被 认为 是 连接 的 参数 。 一 
些 选项 只 被 允许 在 连接 建立 时 发 送 ， 而 其 他 一 些 选项 则 能 够 稍 后 发 送 。 根 据 第 12 章 的 介绍 ， 
TCP 头 部 已 设置 了 一 个 有 限 的 空间 (40 字 节 ) 来 处 理 这 些 选项 。 


13.2 TCP 连接 的 建立 与 终止 


一 个 TCP 连接 由 一 个 4 元 组 构成 ， 它 们 分 别 是 两 个 卫 地 址 和 两 个 端口 号 。 更 准确 地 
说 ,一 个 TCP 连接 是 由 一 对 端点 或 套 接 字 构成 ， 其 中 通信 的 每 一 端 都 由 一 对 (IP 地 址 ， 端 口 
号 ) 所 唯一 标识 。 

一 个 TCP 连接 通常 分 为 3 个 阶段 : 启动 、 数 据 传 输 (也 称 作 “连接 已 建立 ”) 和 退出 (K 
闭 )。 下 文 我 们 将 会 发 现 正确 地 处 理 上 述 三 个 阶段 之 间 的 转换 是 创建 一 个 强健 的 TCP 连接 的 
困难 所 在 。 图 13-1 显示 了 一 个 典型 的 TCP 连接 的 建立 与 关闭 过 程 (不 包括 任何 数据 传输 )。 

图 13-1 中 的 时 间 轴 描绘 了 一 个 连接 建立 过 程 中 的 相关 事宜 。 为 了 建立 一 个 TCP 连接 ， 
需要 完成 以 下 步骤 : 

1. 主动 开启 者 (通常 称 为 客户 端 ) 发 送 一 个 SYN FRICKE ( 即 一 个 在 TCP 头 部 的 SYN 位 
字段 置 位 的 TCP/IP 数据 包 )， 并 指明 自己 想 要 连接 的 端口 号 和 它 的 客户 端 初始 序列 号 〈 记 为 
ISN(c), 参见 13.2.3 节 )。 通 常 ， 客 户 端 还 会 借 此 发 送 一 个 或 多 个 选项 (参见 13.3 节 )。 客 户 
端 发 送 的 这 个 SYN 报 文 段 称 作 段 1。 

2. 服务 器 也 发 送 自己 的 SYN 报 文 段 作为 响应 ， 并 包含 了 它 的 初始 序列 号 ( 记 作 
ISN(s))。 该 段 称 作 段 2。 此 外 ， 为 了 确认 客户 端的 SYN， 服 务 器 将 其 包含 的 ISN(c) 数值 加 1 
后 作为 返回 的 ACK 数值 。 因 此 ， 每 发 送 一 个 SYN， 序 列 号 就 会 自动 加 1。 这 样 如 果 出 现 丢 
失 的 情况 ， 该 SYN 段 将 会 重 传 。 

3. 为 了 确认 服务 器 的 SYN， 客 户 端 将 ISN(s) 的 数值 加 1 后 作为 返回 的 ACK 数值 。 这 称 
作 有 段 3。 
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主动 开启 者 被 动 开 启 者 
( 客户 端 ) ( 服务 器 ) 









SYN, Seq = ISN (c) (选项 ) 








选项 ) 


i K=ISN(O) +1 ( 
( er ) a gyNa ACK, Sea=I5N (9,AC 
ACK, Seq = JSN lo) 
& +1 ACK = ISN (s) + 1 (选项 ) 
Frat € [本 例 中 没有 数据 传输 ] 
FIN + ACK, ET 
q=K ACK (选项 ) 
=K +1 GE) 
(修改 的 三 次 握手 ) L,ACK = K+1 (选项 ) 


FIN + ACK, Seq= 


ACK, Seq =K, ACK = L+1 (选项 ) 


图 13-1 一 个 普通 TCP 连接 的 建立 与 终止 。 通常 ， 由 客户 端 负 责 发 起 一 个 三 次 握手 过 程 。 在 该 过 程 
中 ,客户 端 与 服务 器 利用 SYN 报 文 段 交换 彼此 的 初始 序列 号 (包括 客户 端的 初始 序列 号 和 服 
务 右 的 初始 序列 号 )。 在 通信 双方 都 发 送 了 一 个 FIN 数据 包 并 收 到 来 自 对 方 的 相应 的 确认 数据 
包 后 ， 该 连接 终止 


通过 发 送 上 述 3 个 报 文 段 就 能 够 完成 一 个 TCP 连接 的 建立 。 它 们 也 常 称 作 三 次 握手 。 
三 次 握手 的 目的 不 仅 在 于 让 通信 双方 了 解 一 个 连接 正在 建立 ， 还 在 于 利用 数据 包 的 选项 来 承 
载 特 殊 的 信息 ， 交 换 初 始 序 列 号 (Initial Sequence Number, ISN). 

发 送 首 个 SYN 的 一 方 被 认为 是 主动 地 打开 一 个 连接 。 如 上 文 所 述 ， 它 通常 是 一 个 客户 
端 。 连 接 的 另 一 方 会 接收 这 个 SYN， 并 发 送 下 一 个 SYN， 因 此 它 是 被 动 地 打开 一 个 连接 。 
通常 ， 这 一 方 称 为 服务 器 。( 13.2.2 节 将 会 介绍 一 种 客户 端 与 服务 器 同时 打开 一 个 连接 的 情 
况 。 这 种 情况 可 以 作为 上 文 所 介绍 内 容 的 补充 ， 但 非常 少见 。) 


注意 TOP 的 SYN 段 也 能 够 承载 应 用 数据 。 由 于 伯克利 的 套 接 字 API 不 支持 这 种 
方式 ， 因 此 它 也 很 少 为 人 所 用 。 


图 13-1 还 描绘 了 一 个 TCP 连接 是 怎样 关闭 的 (也 称 为 清除 或 终止 )。 连 接 的 任何 一 方 都 
能 够 发 起 一 个 关闭 操作 。 此 外 ， 该 过 程 还 支持 双方 同时 关闭 连接 的 操作 ， 但 这 种 情况 非常 少 
见 。 在 传统 的 情况 下 ， 负 责 发 起 关闭 连接 的 通常 是 客户 端 (如 图 13-1 所 示 )。 然 而 ， 一 些 服 
务 器 (例如 Web 服务 器 ) 在 对 请 求 做 出 响应 之 后 也 会 发 起 一 个 关闭 操作 。 通 常 一 个 关闭 操作 
是 由 应 用 程序 提出 关闭 连接 的 请 求 而 引发 的 (例如 使 用 系统 调用 close())。TCP 协议 规定 通 
过 发 送 一 个 FIN Be (E FIN 位 字段 置 位 的 TCP 报 文 段 ) 来 发 起 关闭 操作 。 只 有 当 连 接 双方 都 
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完成 关闭 操作 后 ， 才 构成 一 个 完整 关闭 : 

1. 连接 的 主动 关闭 者 发 送 一 个 FIN 段 指 明 接 收 者 希望 看 到 的 自己 当前 的 序列 号 CK, on 
图 13-1 所 示 )。FIN 段 还 包含 了 一 个 ACK 段 用 于 确认 对 方 最 近 一 次 发 来 的 数据 (图 13-1 中 
标记 为 工 )。 

2. 连接 的 被 动 关闭 者 将 天 的 数值 加 1 作为 响应 的 ACE 值 ， 以 表明 它 已 经 成 功 接收 到 
主动 关闭 者 发 送 的 FIN。 此 时 ， 上 层 的 应 用 程序 会 被 告知 连接 的 另 一 端 已 经 提出 了 关闭 的 请 
下 通常 ， 这 将 导致 应 用 程序 发 起 自己 的 关闭 操作 。 接 着 ， 被 动 关 闭 者 将 身份 转变 为 主动 关 
闭 者 ， 并 发 送 自己 的 FIN。 该 报 文 段 的 序列 号 为 工 。 

3. 为 了 完成 连接 的 关闭 ， 最 后 发 送 的 报 文 段 还 包含 一 个 ACK 用 于 确认 上 一 个 FIN。 值 
得 注意 的 是 ， 如 果 出 现 FIN 丢失 的 情况 ， 那 么 发 送 方 将 重新 传输 直到 接收 到 一 个 ACK 确认 
为 止 。 

综 上 所 述 ， 建 立 一 个 TCP 连接 需要 3 个 报 文 段 ， 而 关闭 一 个 TCP 连接 需要 4 个 报 文 段 。 
TCP 协议 还 支持 连接 处 于 半 开 启 状态 (参见 13.6.3 节 )， 但 这 种 情况 并 不 常见 。 存 在 上 述 半 
开启 状态 的 原因 在 于 TCP 的 通信 模型 是 双向 的 。 这 也 意味 着 在 两 个 方向 中 可 能 会 出 现 只 有 
一 个 方向 正在 进行 数据 传输 的 情况 。TCP 的 半 关 闭 操作 是 指 仅 关 闭 数 据 流 的 一 个 传输 方向 ， 
而 两 个 半 关 闭 操作 合 在 一 起 就 能 够 关闭 整个 连接 。 因 此 TCP 协议 规定 通信 的 任何 一 方 在 完 
成 数据 发 送 任务 后 都 能 够 发 送 一 个 FIN。 当 通信 的 另 一 方 接收 到 这 个 FIN 时 ， 就 会 告知 应 用 
程序 对 方 已 经 终止 了 对 应 方向 的 数据 传输 。 由 此 可 见 ， 当 程序 发 布 关 闭 操作 请 求 后 ， 通 信 双 
方 往往 通过 发 送 FIN 段 来 关闭 双向 的 数据 传输 。 

如 上 文 所 述 ，7 个 报 文 段 是 每 一 个 TCP 连接 在 正常 建立 与 关闭 时 的 基本 开销 (下 文 还 会 
介绍 一 些 突然 关闭 TCP 连接 的 方式 )。 因 此 当 只 需要 交换 少量 的 数据 时 ， 一 些 应 用 程序 更 愿 
意 选 择 在 发 送 与 接收 数据 之 前 不 需要 建立 连接 的 UDP 协议。 然而， 这 些 应 用 程序 也 会 面 对 
由 此 引入 的 错误 修复 、 拥 塞 管理 以 及 流量 控制 等 诸多 问题 。 


13.2.1 TCP 半 关 闭 


如 前 文 所 述 ，TCP 支持 半 关 闭 操 作 。 虽 然 一 些 应 用 需要 此 项 功能 ， 但 它 并 不 常见 。 为 
了 实现 这 一 特性 ，API 必须 为 应 用 程序 提供 一 种 基本 的 表达 方式 。 例 如 ， 应 用 程序 表明 “我 
已 经 完成 了 数据 的 发 送 工作 ， 并 发 送 一 个 FIN 给 对 方 ， 但 是 我 仍然 希望 接收 来 自 对 方 的 数据 
直到 它 发 送 一 个 FIN 给 我 ”。 伯 克利 套 接 字 的 API 提供 了 半 关 闭 操作 。 应 用 程序 只 需要 调用 
shutdown() 函数 来 代替 基本 的 close() 函数 ， 就 能 实现 上 述 操作 。 然 而 ， 绝 大 部 分 应 用 程序 仍 
然 会 调用 close() 函数 来 同时 关闭 一 条 连接 的 两 个 传输 方向 。 图 13-2 展示 了 一 个 正在 使 用 的 
半 关 闭 示例 。 图 中 左 侧 的 客户 端 负责 发 起 半 关 闭 操作 ， 然 而 在 实际 应 用 中 ,通信 的 任何 一 方 
都 能 完成 这 项 工作 。 

首先 发 送 的 两 个 报 文 段 与 TCP 正常 关闭 完全 相同 : 初始 者 发 送 的 FIN， 接 着 是 接收 者 回 
应 该 FIN 的 ACK。 由 于 接收 到 半 关 闭 的 一 方 仍 能 够 发 送 数据 ， 因 此 图 13-2 中 的 后 续 操 作 与 
图 13-1 不 同 。 虽 然 图 13-2 在 ACK 之 后 只 描述 了 一 个 数据 段 的 传输 过 程 ， 但 实际 应 用 时 可 
以 传输 任意 数量 的 数据 段 (第 15 章 将 会 详细 地 讨论 数据 段 的 交换 与 确认 细节 )。 当 接收 半 关 
闭 的 一 方 完成 数据 发 送 后 ， 它 将 会 发 送 一 个 FIN 来 关闭 本 方 的 连接 ， 同 时 向 发 起 半 关 闭 的 应 
用 程序 发 出 一 个 文件 尾 指示 。 当 第 2 个 FIN 被 确认 之 后 ， 整 个 连接 完全 关闭 。 
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主动 开启 者 被 动 开 启 者 
( 客户 端 ) ( 服务 器 ) 


[数据 传输 ] 








FIN 
+ ACK, Seq=K, ACK - L (选项 ) 


。 客户 端 发 起 关闭 i 
ACK, Seq=L, ACK=K+! (选项 
(发送 更 多 数据 1 
[Sct 认 ] ae 
L.ACK=K+ 1 (选项 ) 
关闭 连接 的 “ 另 一 半 ” 


图 13-2 在 TCP 半 关 闭 操作 中 ,连接 的 一 个 方向 被 关闭 ， 而 另 一 个 方向 仍 在 传输 数据 直到 它 被 关闭 为 
止 。 很 少 有 应 用 程序 使 用 这 一 特性 


13.2.2 ”同时 打开 与 关闭 


虽然 两 个 应 用 程序 同时 主动 打开 连接 看 似 不 大 可 能 ， 但 是 在 特定 安排 的 情况 下 是 有 可 能 
实现 的 。 通 信 双 方 在 接收 到 来 自 对 方 的 SYN 之 前 必须 先 发 送 一 个 SYN ; 两 个 SYN 必须 经 
过 网 络 送 达 对 方 。 该 场景 还 要 求 通信 双方 都 拥有 一 个 IP 地 址 与 端口 号 ， 并 且 将 其 告知 对 方 。 
上 述 情况 十 分 少见 (第 7 章 介 绍 的 防火 墙 “ 打 孔 ” 技 术 除 外 )， 一旦 发 生 ， 可 称 其 为 同时 
aH. 

例如 ， 主 机 A 的 一 个 应 用 程序 通过 本 地 的 7777 端口 向 主机 B 的 8888 端口 发 送 一 个 主 
动 打 开 请 求 ， 与 此 同时 主机 B 的 一 个 应 用 程序 也 通过 本 地 的 8888 端口 向 主机 A 的 7777 端 
口 提 出 一 个 主动 打开 请 求 ， 此 时 就 会 发 生 一 个 同时 打开 的 情况 。 这 种 情况 不 同 于 主机 A 的 一 
个 客户 端 连接 主机 B 的 一 个 服务 器 ， 而 同时 又 有 主机 B 的 一 个 客户 端 连 接 主 机 A 的 一 个 服 
务 器 的 情况 。 在 这 种 情况 下 ， 服 务 器 始终 是 连接 的 被 动 打开 者 而 非 主动 打开 者 ， 而 各 自 的 客 
户 端 也 会 选择 不 同 的 端口 号 。 因 此 ， 它 们 可 以 被 区 分 为 两 个 不 同 的 TCP 连接 。 图 13-3 显示 
了 在 一 个 同时 打开 过 程 中 报 文 段 的 交换 情况 。 

一 个 同时 打开 过 程 需要 交换 4 个 报 文 段 ， 比 普通 的 三 次 握手 增加 了 一 个 。 由 于 通信 双方 
都 扮演 了 客户 端 与 服务 器 的 角色 ， 因 此 不 能 够 将 任何 一 方 称 作客 户 端 或 服务 器 。 同 时 关闭 并 
没有 太 大 区 别 。 如 前 文 所 述 ， 通 信 一 方 (通常 是 客户 端 ， 但 不 一 定 总 是 ) 提出 主动 关闭 请 求 ， 
并 发 送 首 个 FIN。 在 同时 关闭 中 ， 通 信 双 方 都 会 完成 上 述 工 作 。 图 13-4 显示 了 在 一 个 同时 关 
闭 中 需要 交换 的 报 文 段 。 
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主动 开启 者 主动 开启 者 
(c1) (c2) 


连接 建立 
© (同时 打开 ) 





图 13-3 在 同时 打开 中 交换 的 报 文 段 。 与 正常 的 连接 建立 过 程 相 比 ， 需 要 增加 一 个 报 文 段 。 数 据 包 的 
SYN 位 将 置 位 直到 接收 到 一 个 ACK 数据 包 为 止 


主动 关闭 者 
(c1) 
F 

IN, ACK, Seq 2p pe 

CK, SEQ= 

连接 终止 FIN, A m 
C = 

ACK, Seq= L,A 

ACK, seq = K, ACK 





图 13-4 在 同时 关闭 中 交换 的 报 文 段 。 与 正常 关闭 相似 ， 只 是 报 文 段 的 顺序 是 交叉 的 


同时 关闭 需要 交换 与 正常 关闭 相同 数量 的 报 文 段 。 两 者 真正 的 区 别 在 于 报 文 段 序列 是 交 
叉 的 还 是 顺序 的 。 下 文 将 会 介绍 TCP 实现 中 同时 打开 与 同时 关闭 操作 使 用 特殊 状态 这 一 不 
常见 的 方法 。 


13.2.3 初始 序列 号 


当 一 个 连接 打开 时 ,任何 拥 有 合适 的 IP 地 址 、 端 口号 、 符 合 逻 辑 的 序列 号 ( 即 在 窗口 
H) 以 及 正确 校 验 和 的 报 文 段 都 将 被 对 方 接收 。 然 而 ， 这 也 引入 了 另 一 个 问题 。 在 一 个 连接 
H, TCP 报 文 段 在 经 过 网 络 路 由 后 可 能 会 存在 延迟 抵达 与 排序 混乱 的 情况 。 为 了 解决 这 一 问 
题 ， 需 要 仔细 选择 初始 序列 号 。 本 节 将 详细 介绍 这 一 过 程 。 

在 发 送 用 于 建立 连接 的 SYN 之 前 ， 通 信 双 方 会 选择 一 个 初始 序列 号 。 初 始 序列 号 会 随 
时 间 而 改变 ， 因 此 每 一 个 连接 都 拥有 不 同 的 初始 序列 号 。[RFC0793] 指出 初始 序列 号 可 被 视 
为 一 个 32 位 的 计数 器 。 该 计数 器 的 数值 每 4 微 秒 加 1。 此 举 的 目的 在 于 为 一 个 连接 的 报 文 段 
安排 序列 号 ， 以 防止 出 现 与 其 他 连接 的 序列 号 重 琶 的 情况 。 尤 其 对 于 同一 连接 的 两 个 不 同 实 
例 而 言 ， 新 的 序列 号 也 不 能 出 现 重 芭 的 情况 。 
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由 于 一 个 TCP 连接 是 被 一 对 端点 所 了 唯一 标识 的 ， 其 中 包括 由 2 个 IP 地址 与 2 个 端口 号 
构成 的 4 元 组 ， 因 此 即便 是 同一 个 连接 也 会 出 现 不 同 的 实例 。 如 果 连 接 由 于 某 个 报 文 段 的 长 
时 间 延 迟 而 被 关闭 ， 然 后 又 以 相同 的 4 元 组 被 重新 打开 ， 那么 可 以 相信 延迟 的 报 文 段 又 会 被 
视 为 有 效 数 据 重 新 进入 新 连接 的 数据 流 中 。 上 述 情况 会 令 人 十 分 烦恼 。 通 过 采取 一 些 步骤 来 
避免 连接 实例 间 的 序列 号 重 公 问题 ， 能 够 将 风险 降 至 最 低 。 即 便 如 此 ， 一 个 对 数据 完整 性 有 
较 高 要 求 的 应 用 程序 也 可 以 在 应 用 层 利 用 CRC 或 校 验 和 保证 所 需 数据 在 传输 过 程 中 没有 出 
现任 何 错误 。 在 任何 情况 下 这 都 是 一 种 很 好 的 方法 ， 并 已 普遍 用 于 大 文件 的 传输 。 

如 前 文 所 述 ， 一 个 TCP 报 文 段 只 有 同时 具备 连接 的 4 元 组 与 当前 活动 窗口 的 序列 号 ， 
才 会 在 通信 过 程 中 被 对 方 认为 是 正确 的 。 然 而 ， 这 也 从 另 一 个 侧面 反映 了 TCP 的 脆弱 性 : 如 
果 选 择 合适 的 序列 号 、IP 地 址 以 及 端口 号 ， 那 么 任何 人 都 能 伪造 出 一 个 TCP 报 文 段 ， 从 而 
打 断 TCP 的 正常 连接 [RFC5961]。 一 种 抵御 上 述 行为 的 方法 是 使 初始 序列 号 (或 者 临时 端口 
号 [RFC6056]) 变 得 相对 难以 被 猜 出 ， 而 另 一 种 方法 则 是 加 密 (参见 第 18 章 )。 

现代 系统 通常 采用 半 随 机 的 方法 选择 初始 序列 号 。 证 书 报告 CA-2001-09 [CERTISN] 讨 
论 了 这 一 方法 的 具体 实现 细节 。Linux 系统 采用 一 个 相对 复杂 的 过 程 来 选择 它 的 初始 序列 号 。 
它 采用 基于 时 钟 的 方案 ,并 且 针 对 每 一 个 连接 为 时 钟 设置 随机 的 偏 移 量 。 随 机 偏 移 量 是 在 连 
接 标识 (EI 4 元 组 ) 的 基础 上 利用 加 密 散 列 函 数 得 到 的 。 散 列 函 数 的 输入 每 隔 5 分 钟 就 会 改 
变 一 次 。 在 32 位 的 初始 序列 号 中 ， 最 高 的 8 位 是 一 个 保密 的 序列 号 ， 而 剩余 的 各 位 则 由 散 
列 函 数 生 成 。 上 述 方法 所 生成 的 序列 号 很 难 被 猜 出 ， 但 依然 会 随 着 时 间 而 逐步 增加 。 据 报告 
显示 ，Windows 系统 使 用 了 一 种 基于 RC4[S94] 的 类 似 方案 。 


13.2.4 例子 


前 文 介绍 了 一 个 TCP 连接 的 建立 和 退出 过 程 ， 本 节 将 从 数据 包 (分 组 ) 的 角度 进一步 
介绍 相关 细节 。 为 此 我 们 尝试 对 邻近 的 Web 服务 器 进行 TCP 连接 。 该 主机 的 IPv4 地 址 为 
10.0.0.2， 而 客户 端 则 采用 了 基于 Windows 的 Telnet 应 用 。 


C:\> telnet 10.0.0.2 80 
Welcome to Microsoft Telnet Client 
Escape Character is 'CTRL+]' 

.. wait about 4.4 seconds ... 
Microsoft Telnet> quit 


telnet 命令 是 建立 在 TCP 连接 的 基础 上 的 。 在 上 述 例子 中 ,该 TCP 连接 必须 与 服务 器 的 
IPv4 地 址 10.0.0.2 以 及 http 或 Web 服务 的 端口 号 ( 80 端口 ) 相关 联 。 当 Telnet 应 用 程序 连接 
23 (Telnet 协议 的 众所周知 端口 [RFC0854]) 以 外 的 端口 ， 它 将 不 能 用 于 应 用 协议 。 它 仅仅 将 
自己 的 字 节 输入 拷贝 至 TCP 连接 中 ， 反 之 亦 然 。 当 一 个 Web 服务 器 接收 到 进入 的 连接 请 求 
时 ， 它 首先 需要 等 待 对 Web 页 面 的 请 求 。 在 这 种 情况 下 ， 我 们 不 能 提供 这 样 的 请 求 ， 因 此 服 
务 器 不 会 产生 任何 数据 。 这 些 均 符合 我 们 的 期 望 ， 因 为 我 们 只 对 连接 建立 与 终止 过 程 中 的 数 
据 包 交换 感 兴趣 。 图 13-5 展示 了 Wireshark 软件 对 该 命令 所 产生 的 报 文 段 的 输出 结果 。 

如 图 13-5 所 示 ， 客 户 端 发 送 的 SYN 报 文 段 所 包含 的 初始 序列 号 为 685506836， 广告 窗 
口 为 65535。 该 报 文 段 还 包含 了 若干 其 他 选项 。13.3 节 将 详细 地 讨论 这 些 选 项 。 第 二 个 报 文 
段 既 包含 了 服务 器 的 SYN 还 包含 了 对 客户 端 请 求 的 ACK 确认 。 它 的 序列 号 (服务 器 的 初始 
序列 号 ) 为 1479690171，ACK 号 为 685506837。ACK 号 仅 比 客户 端的 初始 序列 号 大 1， 说 
明 服 务 器 已 经 成 功 接收 到 了 客户 端的 初始 序列 号 。 该 报 文 段 同 样 也 包含 了 一 个 广告 窗口 以 
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表明 服务 器 愿意 接收 64 240 个 字 节 。 第 三 个 数据 包 将 最 终 完 成 三 次 握手 ， 它 的 ACK SH 
1479690172。ACK 号 是 不 断 累 积 的 ， 并且 总 是 表明 ACK 发 送 者 希望 接收 到 的 下 一 个 序列 号 
(而 不 是 它 上 一 个 接收 到 的 序列 号 )。 

在 4.4 秒 暂停 之 后 ，Telnet 应 用 程序 被 要 求 关 闭 连接 。 这 使 得 客户 端 发 送 第 4 个 报 文 段 
FIN. FIN 的 序列 号 为 685506837， 并 由 第 5 个 报 文 段 确认 (ACK 号 为 685506838 ) 。 稍 后 ， [602 
服务 器 会 发 送 自己 的 FIN， 对 应 的 序列 号 为 1479690172。 该 报 文 段 对 客户 端的 FIN 进行 了 
再 次 确认 。 值 得 注意 的 是 ， 该 报 文 段 的 PSH 位 被 置 位 。 虽 然 这 样 并 不 会 对 连接 的 关闭 过 程 
产生 实质 影响 ， 但 通常 用 于 说 明 服务 器 将 不 会 再 发 送 任何 数据 。 最 后 一 个 报 文 段 用 于 对 服务 
器 的 FIN 进行 确认 ，ACK 号 为 1479690173 。 


Source port: 

Destination port: 80 (80) 

{stream index: 0] 

Sequence number: 685506836 (relative sequence number) 
Header length: 44 bytes 


= Reserved: Not set 
= Nonce: Not set 
+ = Congestion window Reduced (CWR): Not set 
= ECN-Echo: Not set 
= Urgent: Not set 
«+ = Acknowledgement: Not set 
= Push: Not set 7 
sree seer 0.. = Reset: NOT Set H 
+ SL AE DE SE TS | 
ches Here nou @ FANT NOC Sat j 
Window size value: 65535 
[calculated window size: 65535] 
& Checksum: 0x1099 [correct] 
ig Options: (24 bytes) 
Maximum segment size: 1460 bytes 
No-Operation (NOP) 
& window scale: 1 (multiply by 2) 
No-Operation CNOP) 
No-Operation (NOP) 
W Timestamps: TSval 0, TSecr 0 
No-Operation (NOP) 
No-Operation (NOP) 
TCP SACK Permitted Option: True 


FA 13-5 在 主机 192.168.35.130 与 10.0.0.2 之 间 建 立 一 条 TCP 连接 ， 并 在 不 发 送 任何 数据 的 情况 下 关 
闭 。PSH (推送 ) 位 说 明 第 6 个 报 文 段 正在 发 送 所 有 来 自 缓存 的 数据 (而 缓存 为 空 ) 





注意 [REFC1025] 将 拥有 最 多 特性 (例如 标记 与 选项 ) 的 报 文 段 称 为 “ 神 风 ” 
(kamikaze) 数据 包 。 其 他 生动 的 术语 还 包括 “丑恶 报 文 、“ 圣 诞 树 数 据 包 ”、“ 灯 测 
试 ” 报 文 段 。 


从 图 13-5 中 我 们 还 会 发 现 SYN 报 文 段 包含 了 一 个 或 多 个 选项 。 这 些 选项 需要 占用 TCP 
头 部 额外 的 空间 。 例 如 ,第 一 个 TCP 头 部 的 长 度 为 44 字 节 ， 比 最 小 的 长 度 长 24 字 节 。TCP 
也 提供 了 若干 选项 ， 下 文 将 详细 介绍 当 一 个 连接 无 法 建立 时 如 何 使 用 这 些 选 项 。 
13.2.5 连接 建立 超时 

本 节 的 若干 实例 将 会 展示 连接 不 能 建立 的 情况 。 一 种 显而易见 的 情况 是 服务 器 关闭 。 为 
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了 模拟 这 种 情况 ， 我 们 将 telnet 命令 发 送 给 一 个 处 于 同一 子 网 的 不 存在 的 主机 。 在 不 修改 
ARP 表 的 情况 下 ， 上 述 做 法 会 使 客户 端 收 到 一 个 “无 法 到 达 主 机 ”的 错误 消息 后 退出 。 由 
于 没有 接收 到 针对 之 前 发 送 的 ARP 请 求 而 返回 的 ARP 响应 (参见 第 4 章 )， 因 此 会 产生 “无 
法 到 达 主 机 ”的 消息 。 如 果 我 们 能 事先 在 ARP 表 中 为 这 个 不 存在 的 主机 添加 一 条 记录 ， 那 
么 系统 就 不 需要 发 送 ARP 请 求 ， 而 会 马上 根据 TCP/IP 协议 尝试 与 这 个 不 存在 的 主机 建立 联 
系 。 相 关 的 命令 如 下 : 


Linux# arp -s 192.168.10.180 00:00:1la:1b:1c:1d 

Linux% date; telnet 192.168.10.180 80; date 

Tue June 7 21:16:34 PDT 2009 

Trying 192.168.10.180... 

telnet: connect to address 192.168.10.180: Connection timed out 
Tue June 7 21:19:43 PDT 2009 

Linux’ 


上 述 例子 选择 的 MAC 地 址 00:00: 1a:1b:1c:1d 不 能 与 局 域 网 中 其 他 主机 的 MAC 冲突 ， 
除 此 之 外 并 无 特别 。 超 时 发 生 在 发 送 初始 命令 后 的 3.2 分 钟 。 由 于 没有 主机 响应 ， 例 子 中 所 
有 的 报 文 段 都 是 由 客户 端 产生 的 。 清 单 13-1 显示 了 使 用 Wireshark 软件 在 摘要 模式 下 获得 的 
输出 结果 。 


清单 13-1 Wireshark 软件 记录 了 连接 建立 过 程 中 的 超时 现象 


zZ 


. Time Source Destination Protocol Info 


o 

1 0.000000 192.168.10.144 192.168.10.180 TCP 32787 > http 
2 2.997928 192.168.10.144 192.168.10.180 TCP 32787 > http 
3 8.997962 192.168.10.144 192.168.10.180 TCP 32787 > http 
4 20.997942 192.168.10.144 192.168.10.180 TCP 32787 > http 
5 44.997936 192.168.10.144 192.168.10.180 TCP 32787 > http 
6 92.997937 192.168.10.144 192.168.10.180 TCP 32787 > http 


有 趣 的 是 这 些 输出 结果 显示 了 客户 端 TCP 为 了 建立 连接 频繁 地 发 送 SYN 报 文 段 。 在 首 
个 报 文 段 发 送 后 仅 3 秒 第 二 个 报 文 段 就 被 发 送出 去 ， 第 三 个 报 文 段 则 是 这 之 后 的 6 秒 ， 而 第 
四 个 报 文 段 则 在 第 三 个 报 文 段 发 送 12 秒 以 后 被 发 送出 去 ， 以 此 类 推 。 这 一 行为 被 称 作 指数 
回 退 。 在 讨论 以 太 网 CSMA/CD 介质 访问 控制 协议 时 (参见 第 3 章 ) 我 们 也 曾 见 过 这 样 的 行 
为 。 然 而 ， 这 两 种 指数 回 退 也 略 有 不 同 。 此 处 的 每 一 次 回 退 数值 都 是 前 一 次 数值 的 两 倍 ， 而 
在 以 太 网 中 最 大 的 回 退 数值 是 上 一 次 的 两 倍 ， 实 际 的 回 退 数值 则 需要 随机 选取 。 

一 些 系统 可 以 配置 发 送 初 始 SYN 的 次 数 ， 但 通常 选择 一 个 相对 较 小 的 数值 S。 在 Linux 
系统 中 ， 系 统 配置 变量 net,ipv4.tcp_syn_retries 表示 了 在 一 次 主动 打开 申请 中 尝试 重新 发 送 
SYN 报 文 段 的 最 大 次 数 。 相 应 地 ， 变 量 net.ipv4.tcp_synack_retries 表示 在 响应 对 方 的 一 个 主 
动 打 开 请 求 时 尝试 重新 发 送 SYN + ACK 报 文 段 的 最 大 次 数 。 此 外 ， 它 能 够 在 设 定 Linux 专 
有 的 TCP_SYNCNT 套 接 字 选 项 的 基础 上 用 于 个 人 连接 。 正 如 上 面 所 介绍 的 ， 默认 的 数值 为 
Hits 次。 两 次 重新 传输 之 间 的 指数 回 退 时 间 是 TCP 拥塞 管理 响应 的 一 部 分 。 当 我 们 讨论 
Karn 算法 时 再 仔细 研究 。 


13.26 ”连接 与 转换 器 


在 第 7 章 ， 我 们 已 经 讨论 了 一 些 协议 (比如 TCP 和 UDP) 如 何 利用 传统 的 NAT 转换 地 
址 与 端口 号 。 我 们 还 讨论 了 IP 数据 包 如 何在 IPv6 与 IPv4 两 个 版 本 间 进 行 转换 。 当 TCP 使 
用 NAT 时 ， 伪 头 部 的 校 验 和 通常 需要 调整 (使 用 校 验 和 中 立地 址 修改 器 的 情况 除外 )。 其 他 
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协议 也 使 用 伪 头 部 校 验 和 ， 因 为 计算 包含 了 与 传输 层 、 网 络 层 相关 的 信息 。 

当 一 个 TCP 连接 首次 被 建立 时 ，NAT 能 够 根据 报 文 段 的 SYN 位 探 明 这 一 事实 。 同 样 ，. 
可 以 通过 检查 SYN + ACK 报 文 段 与 ACK 报 文 段 所 包含 的 序列 号 来 判断 一 个 连接 是 否 已 经 
完全 建立 。 上 述 方法 还 适用 于 连接 的 终止 。 通 过 在 NAT 中 实现 一 部 分 TCP 状态 机 (参见 
[RFC6146] 的 3.5.2.1 节 与 3.5.2.2 节 ) 能 够 跟踪 连接 ， 包括 当前 状态 、 各 方向 的 序列 号 以 及 
相关 的 ACK 号 。 这 种 状态 跟踪 是 典型 的 NAT 实现 方法 。 
PG NAT 扮演 编辑 者 的 角色 并 且 向 传输 协议 的 数据 负载 中 写 入 内 容 时 ， 就 会 涉及 一 些 更 
复杂 的 问题 。 对 于 TCP 而 言 ， 它 将 会 包括 在 数据 流 中 添加 与 删除 数据 ， 并 由 此 影响 序列 号 
(与 报 文 段 ) 的 长 度 。 此 举 会 影响 到 校 验 和 ,但 也 会 影响 数据 的 顺序 。 如 果 利 用 NAT 在 数据 
流 中 插入 或 删除 数据 ， 这 些 数值 都 要 做 出 适当 调整 。 如 果 NAT 的 状态 与 终端 主机 的 状态 不 
同步 ， 连 接 就 无 法 正确 进行 下 去 。 因 此 ， 上 述 做 法 会 带 来 一 定 的 脆弱 性 。 


13.3 TCP 选项 


如 图 12-3 所 示 ，TCP 头 部 包含 了 多 个 选项 。 选 项 列表 结束 (End of Option List, EOL), 
无 操作 (No Operation, NOP) 以 及 最 大 段 大 小 (Maximum Segment Size, MSS) 是 定义 于 原 
te TCP 规范 中 的 选项 。 自 那 时 起 ， 又 有 若干 选项 被 定义 。 整 个 选项 列表 是 由 互联 网 编号 分 
配 机 构 (IANA) 维护 的 [TPARAMS]。 表 13-1 列举 了 一 些 目前 有 趣 的 选项 ( 即 ， 符 合 RFC 
标准 化 描述 的 选项 )。 


表 13-1 TCP 选项 数值 ， 超 过 40 个 字 节 用 于 保存 选项 


E MESEM 

o [1 | o | mo | aR 

ao | o O oo | E T 

2 |a | wss | meo | 最 KR 

; MAAT EBD 
1 PEE SACKA 

5 SACK BL NCSA) 
s| o | ror | moo | mns 

z 用 户 超时 (BERR BA) 
2 认证 这 页 (合用 多 各 和 法) 
25 aT 

到 RTS 


每 一 个 选项 的 头 一 个 字 节 为 “种 类 ”(kind)， 指 明了 该 选项 的 类 型 。 根 据 [RFC1122]， 不 
能 被 理解 的 选项 会 被 简单 地 忽略 掉 。 种 类 值 为 0 或 1 的 选项 仅 占 用 一 个 字 节 。 其 他 的 选项 会 
根据 种 类 来 确定 自身 的 字 节 数 len。 选 项 的 总 长 度 包 括 了 种 类 与 len 个 字 节 。 设 置 NOP 选项 
的 目的 是 允许 发 送 者 在 必要 的 时 候 用 多 个 4 字 节 组 填充 某 个 字段 。 需 要 记 住 的 是 TCP AM 
的 长 度 应 该 是 32 比特 的 倍数 ， 因 为 TCP 头 部 长 度 字段 是 以 此 为 单位 的 。EOL 指出 了 选项 列 
表 的 结尾 ， 说 明 无 需 对 选项 列表 再 进行 处 理 。 在 下 文中 , 我们 将 详细 地 探究 其 他 选项 。 


13.3.1 最 大 段 大 小 选项 
最 大 段 大 小 是 指 TCP 协议 所 允许 的 从 对 方 接收 到 的 最 大 报 文 段 ， 因 此 这 也 是 通信 对 方 
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在 发 送 数据 时 能 够 使 用 的 最 大 报 文 段 。 根 据 [RFC0879]， 最 大 段 大 小 只 记录 TCP 数据 的 字 
节 数 而 不 包括 其 他 相关 的 TCP 与 IP 头 部 。 当 建立 一 条 TOP 连接 时 ， 通 信 的 每 一 方 都 要 在 
SYN 报 文 段 的 MSS 选项 中 说 明 自 己 允 许 的 最 大 段 大 小 。 这 16 位 的 选项 能 够 说 明 最 大 段 大 
小 的 数值 。 在 没有 事先 指明 的 情况 下 ， 最 大 段 大 小 的 默认 数值 为 536 字 节 。 前 文 兽 介 绍 过 ， 
任何 主机 都 应 该 能 够 处 理 至 少 576 字 节 的 IPv4 数据 报 。 如 果 按 照 最 小 的 Pv4 与 TCP 头 
部 计算 ，TCP 协议 要 求 在 每 次 发 送 时 的 最 大 段 大 小 为 536 字 节 ， 这 样 就 正好 能 够 组 成 一 个 
576 (20+ 20 + 536 = 576 ) 字 节 的 IPv4 数据 报 。 

图 13-5 中 ， 最 大 段 大 小 的 数值 均 为 1460。 这 是 IPv4 协议 中 的 典型 值 ， 因 此 IPv4 数据 
报 的 大 小 也 相应 增加 40 个 字 节 (总共 1500 字 节 ， 以 太 网 中 最 大 传输 单元 与 互联 网 路 径 最 大 
传输 单元 的 典型 数值 )，20 字 节 的 TCP 头 部 加 20 字 节 的 IPAR MEH IPv6 协议 时 ， 最 大 
段 大 小 通常 为 1440 字 节 。 由 于 IPv6 的 头 部 比 IPv4 多 20 个 字 节 ， 因 此 最 大 段 大 小 的 数值 相 
应 减少 20 字 节 。 在 [RFC2675] 中 65535 是 一 个 特殊 数值 ， 与 IPv6 超 长 数据 报 一 起 用 来 指定 
一 个 表示 无 限 大 的 有 效 最 大 段 大 小 值 。 在 这 种 情况 下 ， 发 送 方 的 最 大 段 大 小 等 于 路 径 MTU 
的 数值 减 去 60 字 节 ( 40 字 节 用 于 IPv6 头 部 ，20 字 节 用 于 TCP 头 部 )。 值 得 注意 的 是 ， 最 大 
段 大 小 并 不 是 TCP 通信 双方 的 协商 结果 ， 而 是 一 个 限定 的 数值 。 当 通信 的 一 方 将 自己 的 最 
大 段 大 小 选项 发 送 给 对 方 时 ， 它 已 表明 自己 不 愿意 在 整个 连接 过 程 中 接收 任何 大 于 该 尺寸 的 
报 文 段 。 


13.3.2 选择 确认 选项 


第 12 章 介 绍 了 滑动 窗口 的 概念 ， 并 描述 了 TCP 协议 是 如 何 管理 序列 号 与 确认 的 。 由 于 
采用 累积 ACK 确认 ，TCP 不 能 正确 地 确认 之 前 已 经 接收 的 数据 。 由 于 接收 的 数据 是 无 序 的 ， 
所 以 接收 到 数据 的 序列 号 也 是 不 连续 的 。 在 这 种 情况 下 ，TCP 接收 方 的 数据 队列 中 会 出 现 空 
洞 的 情况 。 因 此 在 提供 字 节 流传 输 服 务 时 ，TCP 接收 方 需要 防止 应 用 程序 使 用 超出 空洞 的 
数据 。 

如 果 TCP 发 送 方 能 够 了 解 接收 方 当 前 的 空洞 (以 及 在 序列 空间 中 超出 空洞 的 乱 序数 
据 块 )， 它 就 能 在 报 文 段 丢 失 或 被 接收 方 遗 漏 时 更 好 地 进行 重 传 工 作 。 根 据 [RFC2018] 与 
[RFC2883]，TCP“ 选 择 确认 ”( SACK) 选项 提供 了 上 述 功能 。 如 果 TCP 接收 方 能 够 提供 选 
择 确认 信息 ， 并 且 发 送 方 能 够 合理 有 效 地 利用 这 些 信息 ， 那 么 上 述 方案 将 会 十 分 高 效 。 

通过 接收 SYN (或 者 SYN + ACK) 报 文 段 中 的 “允许 选择 确认 ”选项 ，TCP 通信 方 会 
了 解 到 自身 具有 了 发 布 SACK 信息 的 能 力 。 当 接收 到 乱 序 的 数据 时 ， 它 就 能 提供 一 个 SACK 
选项 来 描述 这 些 乱 序 的 数据 ， 从 而 帮助 对 方 有 效 地 进行 重 传 。SACK 信息 保存 于 SACK 选项 
中 ,包含 了 接收 方 已 经 成 功 接 收 的 数据 块 的 序列 号 范围 。 每 一 个 范围 被 称 作 一 个 SACK 块 ， 
由 一 对 32 位 的 序列 号 表示 。 因 此 ， 一 个 SACK 选项 包含 了 n 个 SACK 块 ,长 度 为 (8n + 2) 
个 字 节 。 增 加 的 2 个 字 节 用 于 保存 SACK 选项 的 种 类 与 长 度 。 

由 于 TCP 头 部 选项 的 空间 是 有 限 的 ， 因 此 一 个 报 文 段 中 发 送 的 最 大 SACK 块 数目 为 3 
〈 假 设 使 用 了 时 间 惟 选项。 根据 13.3.4 节 的 介绍 ， 这 是 现代 TCP 实现 中 的 典型 情况 )。 虽 然 只 
A SYN 报 文 段 才能 包含 “允许 选择 确认 ”选项 ,但 是 只 要 发 送 方 已 经 发 送 了 该 选项 ，SACK 
块 就 能 够 通过 任何 报 文 段 发 送出 去 。 由 于 选择 确认 的 操作 相对 于 TCP 的 错误 和 拥塞 控制 的 
操作 而 言 更 简单 ， 本 书 将 在 第 14 章 与 第 16 章 再 介绍 相关 的 细节 。 
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13.3.3 ”窗口 缩放 选项 


根据 [RFC1323]， 窗 口 缩放 选项 (表示 为 WSCALE 或 WSOPT) 能 够 有 效 地 将 TCP 窗口 
广告 字段 的 范围 从 16 位 增加 至 30 位 。TCP 头 部 不 需要 改变 窗口 广告 字段 的 大 小 ， 仍 然 维持 
16 位 的 数值 。 同 时 ， 使 用 另 一 个 选项 作为 这 16 位 数值 的 比例 因子 。 该 比例 因子 能 够 使 窗口 
字段 值 有 效 地 左 移 。 这 样 事实 上 将 窗口 数值 扩大 至 原先 的 2 倍 ， 其 中 s 为 比例 因子 。 一 个 字 
节 的 移动 可 以 用 0 至 14 (包含 14 ) 来 计数 。 计 数 为 0 的 移动 表示 没有 任何 比例 。 最 大 的 比 
例 数值 是 14， 它 能 够 提供 一 个 最 大 为 1 073 725 440 字 节 (65535 x 2") 的 窗口 。 该 数值 接 
近 1073 741 823 (2”- 1 )， 正 好 1GB。 因 此 ，TCP 使 用 一 个 32 位 的 值 来 维护 这 个 “真实 ” 
的 窗口 大 小 。 

该 选项 只 能 出 现 于 一 个 SYN 报 文 段 中 ， 因 此 当 连 接 建立 以 后 比例 因子 是 与 方向 绑 定 的 。 
为 了 保证 窗口 调整 ， 通 信 双 方 都 需要 在 SYN 报 文 段 中 包含 该 选项 。 主 动 打开 连接 的 一 方 利 
用 自己 的 SYN 中 发 送 该 选项 ， 但 被 动 打开 连接 的 一 方 只 能 在 接收 到 的 SYN 中 指出 该 选项 时 
才能 发 送 。 每 个 方向 的 比例 因子 可 各 不 相同 。 如 果 主 动 打开 连接 的 一 方 发 送 了 一 个 非 0 的 比 
例 因子 但 却 没 有 接收 到 来 自 对 方 的 窗口 缩放 选项 ， 它 会 将 自己 发 送 与 接收 的 比例 因子 数值 都 
设 为 0。 这 样 使 得 系统 不 需要 理解 这 些 系统 间 的 选项 互 操作 。 

假设 我 们 正在 使 用 窗口 缩放 选项 ， 发 送出 去 的 窗口 移动 数值 为 S$， 而 接收 到 的 窗口 移动 
数值 为 R。 这 样 ， 我们 从 对 方 接收 到 每 一 个 16 位 的 广告 窗口 都 需要 左 移 R 位 才能 获得 真实 
窗口 大 小 。 每 次 向 对 方 发 送 窗 口 通告 时 ， 都 会 将 32 位 的 窗口 大 小 向 右 移 动 S 人 位， 然后 将 16 
位 的 数值 填充 到 TCP 头 部 。 

窗口 的 移动 数值 是 由 TCP 通信 方 根据 接收 缓存 的 大 小 自动 选取 的 。 缓 存 的 大 小 是 由 系 
统 设 定 的 ,但 是 应 用 程序 通常 都 具有 改变 其 大 小 的 能 力 。 当 TCP 协议 被 用 于 在 大 带宽 、 高 
延迟 网 络 ( 即 ， 往 返 时 间 与 带宽 都 相对 较 大 的 网 络 ) 上 提供 海量 数据 传输 服务 时 ， 窗 口 缩放 
选项 就 非常 有 意义 。 因 此 ， 第 16 章 将 会 进一步 讨论 该 选项 的 重要 性 与 使 用 方法 。 


13.3.4 时间 戳 选 项 与 防 回 绕 序 列 号 


时 间 发 选项 ( 记 作 TSOPT BK TSopt) 要 求 发 送 方 在 每 一 个 报 文 段 中 添加 2 个 4 字 节 的 
时 间 惟 数值 。 接 收 方 将 会 在 确认 中 反映 这 些 数值 ， 人 允许 发 送 方针 对 每 一 个 接收 到 的 ACK 估 
算 TCP 连接 的 往返 时 间 (由 于 TCP 协议 经 常 利用 一 个 ACK 来 确认 多 个 报 文 段 ， 此 处 必须 
指出 是 “每 个 接收 到 的 ACK” 而 不 是 “每 个 报 文 段 ”。 本 书 第 15 章 将 会 详细 地 讨论 这 一 问 
题 )。 当 使 用 时 间 惟 选项 时 ， 发 送 方 将 一 个 32 位 的 数值 填充 到 时 间 惟 数值 字段 ( 称 作 TSV 或 
TSval) 作为 时 间 惟 选项 的 第 一 个 部 分 ; 而 接收 方 则 将 收 到 的 时 间 截 数值 原封 不 动 地 填充 至 第 
二 部 分 的 时 间 戳 回 显 重 试 字段 ( 称 作 TSER 或 TSecr)。 由 于 包含 了 时 间 惟 选项 ，TCP 头 部 的 
长 度 将 会 增长 10 字 节 (8 字 节 用 于 保存 2 个 时 间 惟 数值 ， 而 另 2 个 数值 则 用 于 指明 选项 的 数 
值 与 长 度 )。 

时 间 惟 是 一 个 单调 增加 的 数值 。 由 于 接收 者 只 会 对 它 接收 到 的 信息 做 出 响应 ， 所 以 它 并 
不 关心 时 间 惟 单元 或 数值 到 底 是 什么 。 该 选项 并 不 要 求 在 两 台 主 机 之 间 进 行 任何 形式 的 时 钟 
同步 。[RFC1323] 推荐 发 送 者 每 秒 钟 至 少将 时 间 截 数值 加 1。 图 13-6 显示 了 通过 Wireshark 
软件 获得 的 时 间 惟 选项 。 

上 述 例子 中 ,通信 双方 都 产生 并 回应 了 对 方 的 时 间 戳 。 第 一 个 报 文 段 (客户 端的 SYN) 
使 用 了 一 个 初始 的 时 间 惟 数值 81813090。 该 数值 被 填充 在 时 间 改 数值 字段 中 。 由 于 客户 端 
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tcp-multiple-options.td - Wireshark 


Source port: 6666 (6666) 
Destination port: 1056 (1056) 
{stream index: 0] 
Sequence number: 0 (relative sequence number) 
Acknowledgement number: 1 (relative ack number) 
Header length: 44 bytes 
由 
window size: 65535 
f@ Checksum: Ox842f [validation disabled] 
f Options: (24 bytes) 
Maximum segment size: 1460 bytes 
NOP 
window scale: 2 (multiply by 4) 
NOP 


NOP 
2 Timestamps: TSval 349742014, Tsecr 81813090 . 
NOP 


NOP 
TCP SACK Permitted Option: True 
[SEQ/ACK analysis] 





图 13-6 一 个 使 用 了 时 间 惟 、 窗 口 缩放 以 及 最 大 段 大 小 选项 的 TCP 连接 。TCP 头 部 长 度 为 44 字 节 。 
初始 SYN (第 1 个 数据 包 ) 的 时 间 惟 数值 为 81813090。 图 中 高 亮 标记 的 第 二 个 数据 包 将 这 一 
数值 作为 响应 返回 给 主动 打开 连接 的 一 方 ， 同 时 包含 了 自己 的 数值 349742014 


估算 一 条 TCP 连接 的 往返 时 间 主 要 是 为 了 设置 重 传 超 时 。 重 传 超时 用 于 告知 TCP 通 
信 方 何 时 应 该 重新 发 送 可 能 已 经 丢失 的 报 文 段 。 第 12 章 已 经 讨论 了 在 一 些 往返 时 间 函 数 
的 基础 上 设置 此 项 超时 的 必要 性 。 借 助 时 间 戳 选项， 我 们 能 够 获得 往返 时 间 相 对 精确 的 测 
量 结果 。 在 使 用 时 间 戳 选项 之 前 ， 大 多 TCP 通信 会 针对 每 个 窗口 的 数据 抽取 一 个 往返 时 间 
样本 。 时 间 惟 选项 使 我 们 获得 了 更 多 的 样本 ， 从 而 提升 了 精确 估算 往返 时 间 的 能 力 (参见 
[RFC1323] 与 [RFC6298])。 

由 于 时 间 惟 选项 与 重 传 计时 器 的 设置 紧密 相关 ， 我 们 将 在 第 14 章 讨 论 重 传 问题 时 详细 
地 介绍 时 间 惟 选项 的 这 一 用 途 。 “这 一 用 途 ” 是 为 了 强调 虽然 时 间 戳 选项 允许 更 高 频率 的 往 
返 时 间 样 本 ， 但 它 也 为 接收 者 提供 了 避免 接收 旧 报 文 段 与 判断 报 文 段 正 确 性 的 方法 。 这 被 称 
作 防 回 绕 序列 号 (Protection Against Wrapped Sequence numbers，PAWS)， 它 与 时 间 惟 选项 
一 起 记录 于 [RFC1323] 中 。 现 在 ， 我 们 要 继续 探究 一 下 它 是 如 何 工作 的 。 

假设 一 个 TCP 连接 使 用 了 窗口 缩放 选项 ， 并 将 其 设置 为 可 能 最 大 的 窗口 ， 大 约 1GB。 
再 假设 使 用 了 时 间 戳 选项 ， 并 且 发 送 者 针对 发 送 的 每 个 窗口 分 配 的 时 间 惟 数值 都 会 加 1。( 这 
一 假设 是 保守 的 。 正 常情 况 下 时 间 戳 数值 的 增长 速度 要 远 快 于 此 。) 表 13-2 显示 了 当 传 输 
6GB 数据 时 两 个 主机 之 间 可 能 的 数据 流 。 为 了 避免 过 多 的 10 位 数字 ,我 们 使 用 符号 G 表 
IR 1 073 741 824 的 倍数 。 我 们 还 再 次 采用 了 tcpdump 中 的 符号 /天 来 表示 从 第 /个 字 节 到 
第 K- 1 个 字 节 的 数据 。 
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表 13-2 TCP 时 间 戳 选项 通过 提供 一 个 额外 的 32 位 有 效 序列 号 空间 清除 了 具有 相同 序列 号 
的 报 文 段 之 间 的 二 义 性 
am Ek 
A zE 
3E RRO 
a 
完好 
完好 
[see | icas | o |e, rece 


32 位 序列 号 字段 在 时 刻 D 和 时 刻 E 间 回 绕 。 假设 在 时 刻 B 有 一 个 报 文 段 丢 失 并 被 重 
传 。 又 假设 这 一 丢失 的 报 文 段 在 时 刻 F 重新 出 现 。 假 设 报 文 段 丢失 与 重新 出 现 的 时 间 差 小 于 
一 个 报 文 段 在 网 络 中 存在 的 最 大 时 间 ( 称 为 MSL， 参 见 13.5.2 节 )， 和 否则 当 路 由 器 发 现 TTL 
期 满 后 就 会 丢弃 该 报 文 段 。 正 如 我 们 之 前 提 到 的 ， 旧 的 报 文 段 重新 出 现 并 包含 当前 正在 传输 
的 序列 号 的 问题 只 会 发 生 在 相对 高 速 的 连接 中 。 

由 表 13-2 可 以 看 出 ， 使 用 时 间 戳 选项 能 够 有 效 地 防止 上 述 问题 。 接 收 者 可 以 将 时 间 戳 
看 作 一 个 32 位 的 扩展 序列 号 。 丢 失 的 报 文 段 会 在 时 刻 了 重新 出 现 ， 由 于 它 的 时 间 戳 为 2， 小 
于 最 近 的 有 效 时 间 惟 (5 或 6)， 因 此 防 回 绕 序列 号 算法 会 将 其 丢弃 。 防 回 绕 序 列 号 算法 并 不 
要 求 在 发 送 者 与 接收 者 之 间 有 任何 形式 的 时 钟 同 步 。 接 收 者 所 需要 的 是 保证 时 间 戳 数值 单调 
增长 ， 并 且 每 一 个 窗口 的 数据 至 少 增加 1。 


13.3.5 “用户 超时 选项 


根据 [RFC5482] 的 描述 ， 用 户 超时 (UTO) 选项 是 一 个 相对 较 新 的 TCP 的 功能 。 用 户 超 
时 数值 (也 被 称 为 USER_TIMEOUT ) 指明 了 TCP 发 送 者 在 确认 对 方 未 能 成 功 接收 数据 之 前 
愿意 等 待 该 数据 ACK 确认 的 时 间 。 根 据 [RFC0793]，USER_TIMEOUT 是 TCP 协议 本 地 配 
置 的 一 个 参数 。 用 户 超时 选项 允许 TCP 通信 方 将 自己 的 USER_TIMEOUT 数值 告知 连接 的 
对 方 。 这 样 就 方便 了 TCP 接收 方 调整 自己 的 行为 (例如 ， 在 终止 连接 之 前 容忍 一 段 较 长 时 间 
的 连接 中 断 )。NAT 设备 也 能 够 解释 这 些 信 息 以 帮助 设置 它们 的 连接 活动 计时 器 。 

用 户 超时 选项 的 数值 是 建议 性 的 ， 因 为 即便 连接 的 一 端 希 望 使 用 一 个 大 的 或 小 的 数值 ， 
也 不 意味 着 另 一 端 就 必须 遵从 。[RFC1122] 提炼 了 USER_TIMEOUT 的 定义 ， 并 且 建 议 当 
TCP 连接 达到 3 次 重 传 阔 值 时 应 该 通知 应 用 程序 (规则 1 )， 而 当 超时 大 于 100 秒 时 应 该 关 
闭 连接 (规则 2 )。 某 些 实现 会 提供 API 函数 来 修改 规则 1 与 规则 2。 由 于 长 的 用 户 超时 设置 
会 导致 资源 耗 尽 ， 而 短 的 用 户 超 时 设置 可 能 会 导致 一 些 连接 过 早 地 断 开 ( 例 如， 拒绝 服务 攻 
击 )， 因 此 需要 为 用 户 超时 选项 的 可 能 数值 设置 上 下 边界 。 设 置 USER_TIMEOUT 的 具体 方 
法 如 下 : 


USER_TIMEOUT = min(U_LIMIT, max(ADV_UTO, REMOTE UTO, L LIMIT)) 


其 中 ADV_UTO 是 本 端 告知 远 端 通信 方 的 用 户 超时 选项 数值 ， 而 REMOTE_UTO 是 远 端 通 
信 方 告知 的 用 户 超时 选项 数值 ，U_LIMIT 是 本 地 系统 对 用 户 超时 选项 设 定 的 数值 上 边界 ， 
M L_LIMIT 则 是 下 边界 。 值 得 注意 的 是 上 式 并 不 能 保证 同一 连接 的 两 端 会 获得 相同 的 用 户 
超时 数值 。 在 任何 情况 下 ，L_LIMIT 的 数值 必须 大 于 对 应 连接 的 重 传 超时 数值 (参见 第 14 
章 )。L_LIMIT 的 数值 一 般 推荐 设 为 100 秒 ， 这 样 可 以 保持 与 [RFC1122] HRA. 
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建立 连接 的 SYN 报 文 段 、 首 个 非 SYN 报 文 段 以 及 USER_TIMEOUT 的 数值 发 生 任何 改 
变 的 报 文 段 ， 都 会 包含 用 户 超时 选项 。 该 选项 的 数值 由 一 个 15 位 的 数值 部 分 与 一 个 1 位 的 
单位 部 分 构成 。 单 位 部 分 用 于 说 明 数 值 的 计量 单位 是 分 钟 (1 ) 还 是 秒 (0 )。UTO 作为 一 个 
相对 较 新 的 选项 还 没有 得 到 广泛 使 用 。 


13.3.6 ”认证 选项 


TCP 设置 了 一 个 选项 用 于 增强 连接 的 安全 性 。 设 计 该 选项 的 目的 在 于 增强 与 替换 较 早 
的 TCP-MD5 机 制 [RFC2385]。 这 一 选项 被 称 作 TCP 认证 选项 ( TCP Authentication Option, 
TCP-AO) [RFC5925]， 它 使 用 了 一 种 加 密 散 列 算法 (参见 第 18 章 ) 以 及 TCP 连接 双方 共同 
维护 的 一 个 秘密 值 来 认证 每 一 个 报 文 段 。TCP 认证 选项 不 仅 提供 各 种 加 密 算法 ， 还 使 用 “ 带 
内 ” 信 令 来 确认 密 钥 是 否 改变 ， 因 此 它 与 TCP-MD5 相 比 有 很 大 的 提高 。 然 而 ，TCP 认证 选 
项 没有 提供 一 个 全 面 密 钥 管理 方案 。 也 就 是 说 ， 通 信 双 方 不 得 不 采用 一 种 方法 在 TCP 认证 
选项 运行 之 前 建立 出 一 套 共享 密 钥 。 

当 发 送 数据 时 ，TCP 会 根据 共享 的 密 钥 生 成 一 个 通信 密 钥 ， 并 根据 一 个 特殊 的 加 密 算法 
[RFC5926] 计算 散 列 值 。 接 收 者 装配 有 相同 的 密 钥 ， 同 样 也 能 够 生成 通信 密 钥 。 借 助 通信 密 
钥 ， 接 收 者 可 以 确认 到 达 的 报 文 段 是 否 在 传输 过 程 中 被 算 改 过 (有 非常 高 的 可 能 性 )。 设 置 
该 选项 是 为 了 针对 各 种 TCP 欺骗 攻击 提供 强 有 力 的 抵御 策略 (参见 13.8 节 )。 然 而 ， 由 于 需 
要 创建 并 分 发 一 个 共享 密 钥 (这 是 一 个 相对 新 的 选项 )， 该 选项 并 没有 得 到 广泛 使 用 。 


13.4 TCP 的 路 径 最 大 传输 单元 发 现 


第 3 章 介绍 了 路 径 最 大 传输 单元 (MTU) 的 概念 。 它 是 指 经 过 两 台 主 机 之 间 路 径 的 所 有 
网 络 报 文 段 中 最 大 传输 单元 的 最 小 值 。 知 道路 径 最 大 传输 单元 后 能 够 有 助 于 一 些 协议 〈 比 如 
TCP) 避免 分 片 。 第 10 章 介绍 了 基于 ICMP 消息 的 路 径 最 大 传输 单元 发 现 (PMTUD) 过 程 
是 如 何 实现 的 ， 但 由 于 应 用 程序 已 经 指定 了 尺寸 ( 即 ， 非 传输 层 协议 )，UDP 协议 一 般 不 会 
采用 上 述 发 现 过 程 获得 的 数据 报 大 小 。TCP 在 支持 字 节 流 抽象 的 实现 过 程 中 能 够 决定 使 用 多 
大 的 报 文 段 ， 因 此 它 很 大 程度 上 控制 了 最 后 生成 的 了 P 数据 包 。 

在 本 节 中 ， 我 们 将 会 进一步 探寻 TCP 是 如 何 使 用 路 径 最 大 传输 单元 的 。 我 们 的 讨论 内 
容 适 用 于 TCP/IPv4 与 TCP/IPv6。[RFC1191] 与 [RFC1981] 能 分 别提 供 更 多 的 细节 。 一 种 称 
作 分 组 层 路 径 最 大 传输 单元 发 现 (Packetization Layer Path MTU Discovery，PLPMTUD ) 的 
算法 能 够 避免 对 ICMP 的 使 用 。 根 据 [RFC4821]， 该 算法 也 能 够 被 TCP 或 其 他 传输 协议 使 
用 。 我 们 可 以 利用 IPv6 协议 中 “数据 包 太 大 ”(Packet Too Big, PTB) 的 术语 来 代表 ICMPv4 
地 址 不 可 达 (需要 分 片 ) 或 ICMPv6 数据 包 太 大 的 消息 。 

TCP 常规 的 路 径 最 大 传输 单元 发 现 过 程 如 下 : 在 一 个 连接 建立 时 ，TCP 使 用 对 外 接口 
的 最 大 传输 单元 的 最 小 值 ， 或 者 根据 通信 对 方 声明 的 最 大 段 大 小 来 选择 发 送 方 的 最 大 段 大 小 
(SMSS)。 路 径 最 大 传输 单元 发 现 不 允许 TCP 发 送 方 有 超过 另 一 方 所 声明 的 最 大 段 大 小 的 行 
为 。 如 果 对 方 没有 指明 最 大 段 大 小 的 数值 ， 发 送 方 将 假设 采用 默认 的 536 字 节 ， 但 是 这 种 情 
况 比较 少见 。 如 果 为 每 一 个 目的 地 保存 对 应 的 路 径 最 大 传输 单元 ， 那 么 就 能 方便 地 对 段 大 小 
进行 选择 。 值 得 注意 的 是 ， 一 条 连接 的 两 个 方向 的 路 径 最 大 传输 单元 是 不 同 的 。 

一 旦 为 发 送 方 的 最 大 段 大 小 选 定 了 初始 值 ，TCP 通过 这 条 连接 发 送 的 所 有 IPv4 数据 报 
都 会 对 DF 位 字段 进行 设置 。TCP/IP 没有 DF 位 字段 ， 因 此 只 需要 假设 所 有 的 数据 报 都 已 经 
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设置 了 该 字段 而 不 必 进 行 实际 操作 。 如 果 接 收 到 PTB 消息 ，TCP 就 会 减少 段 的 大 小 ， 然 后 
用 修改 过 的 段 大 小 进行 重 传 。 如 果 在 PTB 消息 中 已 包含 了 下 一 跳 推 荐 的 最 大 传输 单元 ， 段 
大 小 的 数值 可 以 设置 为 下 一 跳 最 大 传输 单元 的 数值 减 去 IPv4 (或 IPv6 ) 与 TCP 头 部 的 大 小 。 
如 果 下 一 跳 最 大 传输 单元 的 数值 不 存在 (例如 ， 一 个 之 前 的 ICMP 错误 被 返回 时 会 缺乏 这 一 
信息 )， 发 现 者 可 能 需要 尝试 多 个 数值 (例如 ， 采 用 二 分 搜索 法 选择 一 个 可 用 的 数值 )。 这 也 
会 影响 到 TCP 的 拥塞 控制 管理 (参见 第 16 章 )。 对 于 分 组 层 路 径 最 大 传输 单元 发 现 而 言 ， 除 
F PTB 的 消息 不 被 使 用 以 外 其 他 情况 基本 类 似 。 相 反 ， 执 行路 径 最 大 传输 单元 发 现 的 协议 
必须 能 够 快速 地 检测 消息 丢弃 并 调整 自己 的 数据 报 大 小 。 

由 于 路 由 是 动态 变化 的 ， 在 减少 段 大 小 的 数值 一 段 时 间 后 需要 尝试 一 个 更 大 的 数值 ( 接 
近 初 始 的 发 送 方 最 大 段 大 小 )。 根 据 [RFC1191] 与 [RFC1981] 的 指导 意见 ， 该 时 间 间 隔 大 约 
为 10 分 钟 。 

在 互联 网 环境 中 ， 由 于 防火 墙 阻 塞 PTB 消息 [RFC2923]， 路 径 最 大 传输 单元 发 现 过 程 会 
存在 一 些 问题 。 在 各 种 操作 问题 中 ， 黑 洞 问题 的 情况 虽 有 所 好 转 〈 在 [LS10] 中 ，80% 被 调查 
的 系统 都 能 够 正确 地 处 理 PTB 消息 )， 但 仍 悬 而 未 决 。 在 TCP 实现 依靠 传输 ICMP 消息 来 调 
整 它 的 段 大 小 的 情况 下 ， 如 果 TCP 从 未 接收 到 任何 ICMP 消息 ， 那 么 在 路 径 最 大 传输 单元 发 
现 过 程 中 就 会 造成 黑洞 问题 。 这 种 情况 可 能 由 多 方面 的 原因 造成 ， 其 中 包括 了 防火 墙 或 NAT 
配置 为 禁止 转发 ICMP 消息 。 甚 后 果 在 于 一 旦 TCP 使 用 了 更 大 的 数据 包 将 不 能 被 正确 处 理 。 
由 于 只 是 不 能 转发 大 数据 包 ， 所 以 诊断 出 这 一 问题 是 十 分 困难 的 。 那 些 较 小 的 数据 包 (比如 
用 于 建立 连接 的 SYN 与 SYN + ACK 数据 包 ) 是 能 够 成 功 处 理 的 。 一 些 TCP 实现 具有 “ 黑 
洞 探 测 ”功能 。 当 一 个 报 文 段 在 反复 重 传 数 次 后 ， 将 会 尝试 发 送 一 个 较 小 的 报 文 段 。 


13.4.1 例子 


当中 间 路 由 器 的 最 大 传输 单元 小 于 任何 一 个 通信 端的 最 大 段 大 小 时 ，TCP 就 会 执行 
路 径 最 大 传输 单元 发 现 过 程 。 为 了 创造 上 述 条 件 ， 本 文 使 用 一 台 路 由 器 (一 台 本 地 地 址 为 
10.0.0.1 的 Linux 主机 ) 通过 PPPoE 接口 连接 DSL 服务 提供 商 。PPPoE 链 路 使 用 的 最 大 传输 
单元 为 1492 字 节 (以太 网 的 最 大 传输 单元 为 1500 字 节 ， 减 去 PPPoE 协议 的 6 字 节 负载 ， 再 
减 去 2 字 节 的 PPP 负载 。 参 见 第 13 章 )。 图 13-7 显示 了 上 述 例子 的 拓扑 结构 。 
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图 13-7 PPPoE 封装 使 TCP 连接 的 路 径 最 大 传输 单元 从 1500 字 节 (以 太 网 最 大 传输 单元 的 典型 值 ) 减 至 
1492 字 节 。 为 了 证 明 TCP 的 路 径 MTU 发 现 功 能 ， 此 例 设置 了 更 小 的 最 大 传输 单元 (288 字 节 ) 


为 了 更 加 明显 地 看 出 这 一 行为 ， 将 PPPoE 链 路 最 大 传输 单元 的 数值 从 1492 减少 至 288 
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字 节 。 通 过 在 图 13-7 的 GW 主机 上 执行 下 面 的 命令 来 完成 这 项 工作 : 


Linux(GW)# ifconfig ppp0 mtu 288 


此 外 ， 还 需要 告知 客户 端 (图 13-7 中 的 C) 系统 允许 的 最 小 报 文 段 大 小 : 


Linux(C)# sysctl -w net.ipv4.route.min_pmtu=68 


如 果 不 执行 第 2 步 操作 ，Linux 系统 会 将 路 径 最 大 传输 单元 的 最 小 值 设置 为 默认 的 552 
字 节 ， 这 样 就 能 够 避免 某 些 较 小 的 最 大 传输 单元 攻击 〈 参 见 13.8 节 )。 这 样 做 的 后 果 是 此 例 
中 任何 大 于 288 字 节 的 数据 包 都 将 被 分 片 。 为 了 避免 这 种 情况 的 发 生 ， 并 证 明 路 径 最 大 传 
输 单元 发 现 是 有 效 的 ， 需 要 修改 这 一 最 小 值 。 然 后 ,我 们 开始 通过 互联 网 从 主机 C (地 址 
10.0.0.123 ) 向 服务 器 S 传输 文件 (地 址 169.229.62.97 ) 。 清 单 13-2 显示 了 利用 tepdump id 
录 下 的 数据 包 交 换 过 程 。 为 了 清楚 起 见 ， 隐 藏 了 一 些 行 并 删除 了 一 些 不 相关 的 字段 。 


清单 13-2 ”在 网 络 传输 过 程 中 ， 如 果 中 间 链 路 的 最 大 传输 单元 小 于 两 端 通信 节点 的 ， 路 径 
MTU 发 现 机 制 能 够 找 出 合适 的 段 大 小 以 供 传输 使 用 


1 20:20:21.992721 IP (tos 0x0, ttl 45, id 43565, offset 0, flags [DF], 
proto 6, length: 588) 
169.229.62.97.22 > 10.0.0.123.1027: P [tcp sum ok] 
41:577(536) ack 23 


2 20:20:21.993727 IP (tos 0x0, ttl 64, id 57659, offset 0, flags [DF], 
proto 6, length: 588) 
10.0.0.123.1027 > 169.229.62.97.22: P [tcp sum ok] 
23:559(536) ack 577 


3 20:20:21.994093 IP (tos Oxc0, ttl 64, id 57547, offset 0, flags 
[none], proto 1, length: 576) 
10.0.0.1 > 10.0.0.123: icmp 556: 
169.229.62.97 unreachable - need to frag (mtu 288) for 
IP (tos 0x0, ttl 63, id 57659, offset 0, flags [DF], 
proto 6, length: 588) 
10.0.0.123.1027 > 169.229.62.97.22: 
P 23:559(536) ack 577 


4 20:20:21.994884 IP (tos 0x0, ttl 64, id 57660, offset 0, flags [DF], 
proto 6, length: 288) 
10.0.0.123.1027 > 169.229.62.97.22: . [tcp sum ok] 
23:259(236) ack 577 


5 20:20:22.488856 IP (tos 0x0, ttl 45, id 6712, offset 0, flags [DF], 
proto 6, length: 836) 
169.229.62.97.22 > 10.0.0.123.1027: P [tcp sum ok] 
857:1641(784)ack 855 


6 20:20:29.672947 IP (tos 0x8, ttl 64, id 57679, offset 0, flags [DF], 
proto 6, length: 1452) 
10.0.0.123.1027 > 169.229.62.97.22: . [tcp sum ok] 
1431:2831(1400) ack 2105 


7 20:20:29.674123 IP (tos Oxc8, ttl 64, id 57548, offset 0, flags 
[none], proto 1, length: 576) 
10.0.0.1 > 10.0.0.123: icmp 556: 
169.229.62.97 unreachable - need to frag (mtu 288) for 
IP (tos 0x8, ttl 63, id 57679, offset 0, flags [DF], 
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proto 6, length: 1452) 
10.0.0.123.1027 > 169.229.62.97.22: . 
1431:2831(1400) ack 2105 


8 20:20:29.673751 IP (tos 0x8, ttl 64, id 57680, offset 0, flags [DF], 
proto 6, length: 1452) 
10.0.0.123.1027 > 169.229.62.97.22: . [tcp sum ok] 
2831:4231(1400) ack 2105 


f 9 20:20:29.675180 IP (tos Oxc8, ttl 64, id 57549, offset 0, flags 

[none], proto 1, length: 576) 

10.0.0.1 > 10.0.0.123: icmp 556: 

169.229.62.97 unreachable - need to frag (mtu 288) for 
IP (tos 0x8, ttl 63, id 57680, offset 0, flags [DF], 
proto 6, length: 1452) 
10..0.0.123.1027 > 169.229.6297 .22: > 
2831:4231(1400) ack 2105 


10 20:20:29.674932 IP (tos 0x8, ttl 64, id 57681, offset 0, flags 
[DF], proto 6, length: 288) 
10.0.0.123.1027 > 169.229.62.97.22: . [tcp sum ok] 
1431:1667(236) ack 2105 


11 20:20:29.675143 IP (tos 0x8, ttl 64, id 57682, offset 0, flags 
[DF], proto 6, length: 288) 
10.0.0.123.1027 > 169.229.62.97.22: . [tcp sum ok] 
1667:1903(236) ack 2105 


根据 tcpdump 的 输出 结果 ， 连 接 已 经 建立 并 且 最 大 段 大 小 的 数值 已 经 交换 。 连 接 中 所 有 
的 数据 包 都 将 DF 位 置 位 ， 所 以 两 端 都 能 够 使 用 路 径 MTU 发 现 机 制 。 较 远 一 方 的 首 个 数据 
包 的 长 度 为 588 字 节 。 尽 管 中 间 PPPoE 链 路 的 最 大 传输 单元 已 配置 为 288 字 节 ， 但 该 数据 
包 仍 能 够 成 功 地 通过 路 由 器 转发 而 不 被 分 片 。 产 生 这 种 情况 的 原因 是 不 对 称 的 最 大 传输 单元 
配置 。 虽 然 PPPoE 链 路 的 本 地 端 使 用 了 288 字 节 的 最 大 传输 单元 ， 但 是 另 一 端 仍然 将 发 送 
方 最 大 段 大 小 的 数值 设置 为 一 个 较 大 的 值 ， 大 概 是 1492 字 节 。 这 样 就 会 造成 下 述 情况 ， 向 
外 发 送 的 数据 包 需 要 较 小 的 段 大 小 (288 字 节 或 更 小 )， 而 反方 向 进入 的 数据 包 可 以 拥有 较 大 
的 段 大 小 。 

当 本 地 通信 端 尝试 发 送 一 个 588 字 节 且 DF 位 置 位 的 较 大 数据 包 时 ， 路 由 器 ( 10.0.0.1 ) 
将 会 产生 一 个 PTB 消息 ， 指 出 适合 下 一 跳 链 路 的 最 大 传输 单元 大 小 为 288 字 节 。 在 收 到 这 
条 PTB 消息 后 ，TCP 在 发 送 下 一 个 数据 包 时 会 按照 指示 选择 288 字 节 作为 响应 。 对 于 那些 
原本 打算 以 588 字 节 的 大 小 发 送 的 剩余 的 数据 包 ，TCP 也 会 按照 最 大 传输 单元 的 数值 将 它们 
重新 划分 ， 另 外 发 送 两 个 大 小 分 别 为 288 字 节 与 116 字 节 的 数据 包 。 在 文件 传输 的 过 程 中 ， 
类 似 的 数据 包 大 小 会 不 断 地 重复 出 现 。 

路 径 MTU 发 现 过 程 是 一 种 TCP 明确 地 尝试 调整 段 大 小 的 方法 。 它 适用 于 TCP ERE 
立 后 ， 至 少 是 在 传输 大 量 数 据 时 。 报 文 段 的 大 小 能 够 影响 吞吐 量 的 总 体 性 能 以 及 TCP 窗口 
大 小 。 第 15 章 将 会 继续 讨论 它 是 如 何 影响 总 体 性 能 的 。 


13.5 TCP 状态 转换 


我 们 已 经 介绍 了 许多 关于 一 个 TCP 连接 启动 与 终止 的 规则 ， 也 看 到 了 在 一 个 连接 的 不 同 
阶段 需要 发 送 的 各 种 类 型 的 报 文 段 。 这 些 决定 TCP 应 该 做 什么 的 规则 其 实 是 由 TCP 所 属 的 状 
态 决定 的 。 当 前 的 状态 会 在 各 种 触发 条 件 下 发 生 改变 ， 例 如 传输 或 接收 到 的 报 文 段 、 计 时 器 
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超时 、 应 用 程序 的 读 写 操作 ， 以 及 来 自 其 他 层 的 信息 。 这 些 规 则 可 以 概括 为 TCP 的 状态 转换 图 。 
13.5.1 TCP 状态 转换 图 


图 13-8 展示 了 TCP 的 状态 转换 图 。 图 中 的 状态 用 椭圆 表示 ， 而 状态 之 间 的 转换 则 用 第 
头 表 示 。TCP 连接 的 每 一 端 都 可 以 在 这 些 状态 中 进行 转换 。 有 些 转 换 是 由 于 接收 到 某 个 控制 
位 字段 置 位 的 报 文 段 而 引发 的 (例如 ，SYN，ACK，FIN); 而 有 些 转换 又 会 要 求 发 送 一 些 控 
制 位 字段 置 位 的 报 文 段 。 另 外 还 有 一 些 转 换 是 由 应 用 程序 的 动作 或 计时 器 超时 引发 的 。 上 述 
各 种 情况 都 以 文本 注释 的 方式 标记 在 转换 图 的 相关 箭头 旁边 。 当 初始 化 时 ，TCP 从 CLOSED 
状态 启动 。 通 常 根 据 是 执行 主动 打开 操作 还 是 被 动 打开 操作 ，TCP 将 分 别 快速 转换 到 SYN_ 
SENT 或 LISTEN 状态 。 


或 超时 


典型 的 客户 端 状态 转移 
一 一 一 -> 典型 的 服务 器 状态 转移 


接收 : SYN+ACK Open/Close 应 用 程序 动作 
Bik: ACK | 


计时 器 初始 化 的 转移 





图 13-8 TCP 状态 转换 图 (也 称 作 有 限 状 态 机 )。 箭 头 表 示 因 报 文 段 传输 、 接 收 以 及 计时 器 超时 而 引发 
的 状态 转换 。 粗 箭头 表示 典型 的 客户 端的 行为 ， 虚 线 箭头 表示 典型 的 服务 器 行为 。 粗 体 指令 
617 (例如 open, close) 是 应 用 程序 执行 的 操作 
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图 13-8 中 值得 注意 的 是 只 有 一 部 分 状态 转移 被 认为 是 “典型 的 ”。 我 们 已 经 将 普通 的 
客户 端 状 态 转移 用 深 黑 的 实 线 箭 头 表 示 ， 而 普通 的 服务 器 状态 转换 用 虚线 箭头 表示 。 导 向 
ESTABLISHED 状态 的 两 种 转换 与 打开 一 个 连接 相关 ， 从 ESTABLISHED 状态 导出 的 两 种 转 
换 则 用 于 终止 一 个 连接 。ESTABLISHED 是 通信 双方 双向 传输 数据 的 状态 。 第 14 ~ 17 章 将 
详细 地 介绍 该 状态 。 

图 13-8 将 FIN_WAIT_1, FIN WAIT 2 以 及 TIME_WAIT 状态 用 一 个 方 框 括 起 来 (至少 
是 部 分 被 括 起 来 )， 称 作 “ 主 动 关闭 ”。 它 们 表示 当 本 地 应 用 程序 发 起 一 个 关闭 请 求 时 会 进入 
的 状态 集合 。 另 外 两 个 状态 (CLOSE_WAIT 与 LAST_ACK) 被 一 个 虚线 框 括 起 来 ， 并 标记 
为 “被 动 关闭 ”。 这 些 状态 与 等 待 一 个 节点 确认 一 个 FIN 报 文 段 并 进行 关闭 相关 。 同 时 关闭 
可 以 视 为 一 种 包含 两 个 主动 关闭 的 形式 。 此 外 ， 还 使 用 了 CLOSING 状态 。 

图 13-8 中 的 11 种 状态 名 称 (CLOSED, LISTEN, SYN_SENT 等 ) 都 是 基于 UNIX、 
Linux, Windows 系统 中 netstat 命令 所 输出 的 名 称 。 而 这 些 名 称 则 是 参考 了 [RFC0793] 中 的 
名 称 。CLOSED 状态 并 不 能 算 作 一 个 “官方 ”的 状态 , 但 在 图 13-8 中 却 被 作为 一 个 开始 状 
态 点 和 一 个 终止 状态 点 。 

M LISTEN 到 SYN_SENT 的 状态 转换 在 TCP 协议 中 是 合法 的 ， 但 却 不 被 伯克利 套 接 字 
所 支持 ， 因 此 比较 少见 。 从 SYN_RCVD 返回 到 LISTEN 的 状态 转换 只 有 在 SYN_RCVD 状 
态 是 由 LISTEN 状态 (在 正常 的 场景 中 ) 而 非 SYN_SENT 状态 转换 而 来 的 情况 下 才 是 正确 
的 。 这 意味 着 ， 如 果 我 们 执行 一 个 被 动 打开 操作 (进入 LISTEN 状态 )， 接 收 一 个 SYN， 发 
送 一 个 带 有 ACK 确认 的 SYN (进入 SYN_RCVD 状态 )， 然 后 收 到 一 个 重 置 消 息 而 非 ACK, 
端点 就 会 返回 到 LISTEN 状态 ， 并 且 等 待 另 一 个 连接 请 求 的 到 来 。 

图 13-9 不 仅 显示 了 正常 TCP 连接 的 建立 与 终止 过 程 ， 还 详细 介绍 了 客户 端 与 服务 器 
经 历 的 各 种 状态 。 它 是 图 13-1 的 简略 版 本 ， 在 显示 相关 状态 的 同时 省 略 了 选项 与 初始 序列 号 


主动 开启 者 被 动 开启 者 
( 客户 端 ) ( 服务 器 ) 
SYN_SENT hee 
(主动 打开 ) [SNK 《被 动 打 开 1) 
SYN_RCVD 


SYN L, ACK K+} 
| 
ESTABLISHED 
ESTABLISHED 


i [数据 传输 发 生 在 ESTABLISHED 状 态 ] | 


FIN WAIT 1 
pt > 人 

( 主动 关闭 ) FIN CLOSE WAIT 

ee jl 
sage ied ( 被 动 关闭 ) 
sana J tas_ack 
FINN 

TIME_WAIT 

`- S \ Sa 
2MSL 计 时 器 | ACK N+] CLOSED 

CLOSED 


图 13-9 与 正常 连接 的 建立 与 终止 相关 的 TCP 状态 
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等 细节 。 假设 在 图 13-9 中 左 侧 的 客户 端 执行 一 个 主动 打开 操作 ， 而 右 侧 的 服务 器 执行 一 个 
被 动 打 开 操 作 。 虽 然 根 据 前 文 的 介绍 由 客户 端 负责 执行 主动 关闭 操作 ， 但 是 通信 的 任何 一 方 
都 能 够 进行 这 项 工作 。 


13.5.2 TIME_WAIT 状态 


TIME_WAIT 状态 也 称 为 2MSL 等 待 状态 。 在 该 状态 中 ，TCP 将 会 等 待 两 倍 于 最 大 段 生 
存 期 (Maximum Segment Lifetime, MSL) 的 时 间 ， 有 时 也 被 称 作 加 们 等待。 每 个 实现 都 必 
须 为 最 大 段 生 存 期 选择 一 个 数值 。 它 代表 任何 报 文 段 在 被 丢弃 前 在 网 络 中 被 允许 存在 的 最 长 
时 间 。 我 们 知道 这 个 时 限 是 有 限制 的 ， 因 为 TCP 报 文 段 是 以 IP 数据 报 的 形式 传输 的 ，IP 数 
据 报 拥有 TTL 字段 和 跳 数 限制 字段 。 这 两 个 字段 限制 了 IP 数据 报 的 有 效 生存 时 间 (参见 第 
5 章 )。[RFC0793] 将 最 大 段 生 存 期 设 为 2 分钟 。 然 而 在 常见 实现 中 ,最 大 段 生 存 期 的 数值 可 
以 为 30 秒 、1 分 钟 或 者 2 分钟。 在 绝 大 多 数 情况 下 ， 这 一 数值 是 可 以 修改 的 。 在 Linux 系统 
中 ，net.ipv4. tcp_fin_timeout 的 数值 记录 了 2MSL 状态 需要 等 待 的 超时 时 间 (以 秒 为 单位 )。 
在 Windows 系统 ， 下 面 的 注册 键 值 也 保存 了 超时 时 间 : 

HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\TcpTimedWaitDelay 
该 键 值 的 取 值 范围 是 30 ~ 300 秒 。 对 于 IPv6 而 言 ， 只 需要 将 键 值 中 的 Tepip 替换 为 Tcpip6 
即 可 。 l 

假设 已 设 定 MSL 的 数值 ， 按 照 规 则 : 4 TCP 执行 一 个 主动 关闭 并 发 送 最 终 的 ACK 时 ， 
连接 必须 处 于 TIME_WAIT 状态 并 持续 两 倍 于 最 大 生存 期 的 时 间 。 这 样 就 能 够 让 TCP 重新 
发 送 最 终 的 ACK 以 避免 出 现 丢 失 的 情况 。 重 新 发 送 最 终 的 ACK 并 不 是 因为 TCP 重 传 了 
ACK (它们 并 不 消耗 序列 号 ， 也 不 会 被 TCP 重 传 )， 而 是 因为 通信 男 一 方 重 传 了 它 的 FIN CE 
消耗 一 个 序列 号 )。 事 实 上 ，TCP 总 是 重 传 FIN， 直 到 它 收 到 一 个 最 终 的 ACK. 

另 一 个 影响 2MSL 等 待 状态 的 因素 是 当 TCP 处 于 等 待 状态 时 ， 通 信 双 方 将 该 连接 ( 客 
户 端 耻 地 址 、 客 户 端 端口 号 、 服 务 器 IP 地址、 服务 器 端口 号 ) 定义 为 不 可 重新 使 用 。 只 有 
当 2MSL 等 待 结束 时 ， 或 一 条 新 连接 使 用 的 初始 序列 号 超过 了 连接 之 前 的 实例 所 使 用 的 最 高 
序列 号 时 [RFC1122]， 或 者 允许 使 用 时 间 戳 选项 来 区 分 之 前 连接 实例 的 报 文 段 以 避免 混 清 时 
[RFC6191]， 这 条 连接 才能 被 再 次 使 用 。 不 幸 的 是 ， 一些 实现 施加 了 更 加 严格 的 约束 。 在 这 
些 系统 中 ， 如 果 一 个 端口 号 被 处 于 2MSL 等 待 状态 的 任何 通信 端 所 用 ， 那 么 该 端口 号 将 不 能 
被 再 次 使 用 。 清 单 13-3 与 清单 13-4 展示 了 这 一 约束 的 相关 例子 。 

许多 实现 与 API 都 提供 了 绕 开 这 一 约束 的 方法 。 在 伯克利 套 接 字 API 中 ，SO_ 
REUSEADDR 套 接 字 选 项 就 支持 绕 开 操作 。 它 允许 调用 者 为 自己 分 配 本 地 端口 号 ， 即 使 这 个 
端口 号 是 某 个 处 于 2MSL 等 待 状态 连接 的 一 部 分 。 我 们 还 会 发 现 ， 即 使 套 接 字 地址、 端口 
号 对 ) 具有 绕 开 机 制 ，TCP 的 规则 仍 会 防止 该 端口 号 被 处 于 2MSL 等 待 状态 的 同一 连接 的 其 
他 实例 重新 使 用 。 当 一 个 连接 处 于 2MSL 等 待 状态 时 ， 任 何 延 迟到 达 的 报 文 段 都 将 被 丢弃 。 
因为 一 条 连接 是 通过 地 址 和 端口 号 的 4 元 组 定义 的 。 如 果 该 连接 处 于 IMSL 等 待 状态 ， 那 么 
它 在 这 段 时 间 内 将 不 能 被 重新 使 用 。 当 这 条 正确 的 连接 最 终 被 建立 起 来 后 ， 这 条 连接 之 前 的 
实例 所 传输 的 延迟 报 文 段 是 不 能 被 当 作 新 连接 的 一 部 分 来 解读 的 。 

对 于 交互 式 应 用 程序 而 言 ， 客 户 端 通常 执行 主动 关闭 操作 并 进入 TIME_WAIT 状态 ， 服 
务 器 通常 执行 被 动 关闭 操作 并 且 不 会 直接 进入 TIME_WAIT 状态 。 其 中 的 含义 是 ， 如 果 我 们 
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终止 一 个 客户 端 后 立刻 重新 启动 同一 客户 端 ， 那 么 新 的 客户 端 也 不 能 重新 使 用 相同 的 本 地 端 
口号 。 通 常 来 说 ， 这 并 不 成 问题 。 因 为 客户 端 通常 使 用 的 是 由 操作 系统 分 配 的 临时 端口 号 ， 
而 且 它 们 也 并 不 关心 被 分 配 的 端口 号 究竟 是 什么 (回忆 一 下 ， 实 际 上 出 于 安全 考虑 有 一 种 推 
荐 的 随机 方法 [RFC6056]。 值 得 注意 的 是 ， 由 于 一 个 客户 端 能 够 快速 产生 大 量 的 连接 (尤其 
是 针对 同一 个 服务 器 )， 因 此 它 不 得 不 在 临时 端口 号 供应 紧张 时 延迟 一 会 儿 来 等 待 其 他 连接 
的 终止 。 

P 对 于 服务 器 而 言 ， 情 况 则 大 不 相同 。 它 们 通常 使 用 一 些 知 名 的 端口 。 如 果 我 们 终止 一 个 
已 经 建立 了 一 条 连接 的 服务 器 进程 ， 然 后 立即 尝试 重新 启动 它 ， 服 务 器 不 能 为 该 程序 的 通信 
端 分 配对 应 的 端口 号 〈 它 将 会 收 到 一 个 “地 址 已 占用 ”的 绑 定 错误 )。 这 是 因为 当 连 接 进 入 
2MSL 等 待 状态 时 ， 端 口号 仍然 是 连接 的 一 部 分 。 根 据 系统 对 MSL 数值 的 不 同 设 定 ， 服 务 
器 可 能 需要 花费 1 ~ 4 分 钟 才 能 重新 启动 。 我 们 可 以 利用 sock 程序 观察 这 一 场景 。 在 清单 
13-3 中 ， 我 们 启动 服务 器 ， 从 客户 端 连接 该 服务 器 ， 然 后 终止 服务 器 。 


清单 13-3 ”如 果 一 个 TCP 连接 要 被 其 他 进程 重新 使 用 ， 它 必须 在 TIME_WAIT 状态 下 完成 2MSL 的 延迟 
Linuxg sock -v -s 6666 
(now a client on another computer connects to this server) 
connection on 192.168.10.144.6666 from 192.168.10.140.2623 
(server stopped by typing interrupt character) 
(now server is restarted) 
Linux® sock -v -s 6666 
can't bind local address: Address already in use 


Linux® netstat -n -t 

Active Internet connections (w/o servers) 

Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 192.168.10.144:6666 192.168.10.140:2623 TIME WAIT 


(wait one minute and restart server again) 
Linux% sock -v -s 6666 


当 重 新 启动 服务 器 时 ， 程 序 会 输出 一 条 错误 信息 ， 显 示 由 于 地 址 已 经 被 占用 而 导致 它 的 
端口 号 不 能 被 绑 定 。 实 际 上 这 也 意味 着 该 地 址 与 端口 号 的 组 合 已 经 被 使 用 。 这 是 由 于 前 一 个 
连接 处 于 2MSL 的 等 待 状态 而 造成 的 。 根 据 前 文 所 述 ， 这 是 对 于 端口 号 的 重复 使 用 最 严厉 的 
限制 。netstat 命令 输出 的 结果 显示 连接 处 于 TIME_WAIT 状态 。 虽 然 客 户 端 不 像 服务 器 一 样 
会 遇 到 如 此 多 的 关于 2MSL 等 待 状态 的 问题 ， 但 是 依然 能 够 通过 让 客户 端 指定 自己 的 端口 号 
来 证 明 相 同 的 问题 是 存在 的 ， 如 清单 13-4 所 示 。 


清单 13-4 ” 当 端 口号 被 其 他 处 于 2MSL 等 待 状态 的 连接 使 用 时 ， 它 不 能 被 客户 端 重复 使 用 


(start server in one window) 
Linux% sock -s -v 6666 


(connect to it from another window) 
Linuxt sock -v 127.0.0.1 6666 


(server identifies incoming connection) 
connection on 127.0.0.1.6666 from 127.0.0.1.2091 


(client identifies connection establishment, and is interrupted) 
connected on 127.0.0.1.2091 to 127.0.0.1.6666 


sc 
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(server identifies connection has terminated and exits) 
connection closed by peer 
Linux% 


(client is restarted, specifying same port number as before) 
Linux% sock -b 2091 -v 127.0.0.1 6666 
bind() error: Address already in use 


(wait 30 seconds and try again) 
Linuxg sock -b 2091 -v 192.168.10.144 6666 
connect() error: Connection refused 


在 第 一 次 执行 客户 端 时 ， 我 们 利用 -v 选项 查 出 分 配给 客户 端的 (临时 的 ) 本 地 端口 号 为 
2091。 在 第 二 次 执行 客户 端 时 ， 我 们 利用 -b 选项 告诉 客户 端 将 2091 作为 自己 的 本 地 端口 号 
来 蔡 代 操作 系统 分 配 的 临时 端口 号 。 正 如 我 们 所 期 望 的 ， 客 户 端 不 能 完成 上 述 操作 。 因 为 端 
口 2091 是 一 个 处 于 2MSL 等 待 状态 的 连接 的 不 可 分 割 部 分 。 一 旦 等 待 结束 (在 Linux 机 器 
上 为 1 分 钟 )， 客 户 端 会 尝试 再 次 连接 ,但 是 服务 器 会 在 连接 被 首次 中 断后 退出 ， 所 以 该 次 尝 
试 会 被 拒绝 。 本 书 将 在 13.6 节 继 续 介 绍 如 何 利 用 TCP 的 重 置 报 文 段 表明 连接 被 拒绝 的 条 件 。 

前 文 曾 经 提 到 过 ， 大 多 数 系统 会 提供 一 种 优先 级 高 于 默认 行为 的 方式 ， 这 样 即 使 某 些 端 
口 是 处 于 2MSL 等 待 状态 的 连接 的 一 部 分 ， 仍 然 允 许 进 程 对 其 进行 绑 定 。 现 在 我 们 在 与 之 前 
相同 的 场景 下 ， 利 用 sock 的 -A 选项 来 实现 上 述 的 绕 开 机 制 : 


Linuxs sock -A -v -s 6666 
Linux% sock -A -v -s 6666 


在 此 例 中 ， 我 们 在 启动 服务 器 时 使 用 了 -A 选 项 ， 从 而 激活 了 之 前 提 到 过 的 SO_ 
REUSEADDR 套 接 字 选项 。 通 过 这 种 方法 ， 即 使 连接 处 于 2MSL 等 待 状态 ， 它 的 端口 仍然 
能 够 被 服务 器 绑 定 。 如 果 我 们 马上 使 用 具有 相同 端口 号 的 客户 端 ， 将 会 发 生 下 面 的 情况 : 


Linux% sock -b 32840 -v 127.0.0.1 6666 
bind() error: Address already in use 


系统 再 一 次 提示 了 端点 127.0.0.1.32840 正 被 使 用 ， 启 动 客户 端 失 败 。 但 是 ， 如 果 我 们 也 
对 客户 端 使 用 -A 选项 ， 则 能 够 强制 该 连接 工作 : 


Linux% sock -A -b 32840 -v 127.0.0.1 6666 
Connected on 127.0.0.1.32840 to 127.0.0.1.6666 
TCP_MAXSEG = 16383 


此 处 说 明了 即使 重新 使 用 处 于 2MSL 等 待 状态 的 同一 个 连接 (包括 4 元 组 )， 利 用 -A 选 
项 也 能 够 强制 该 连接 执行 。 当 然 ， 这 些 都 发 生 在 同一 台 计算 机 上 ， 操 作 系统 能 够 查 明 那些 处 
于 2MSL 等 待 状态 的 (至 少 是 潜在 的 ) 进程 对 应 着 连接 的 哪 一 端 ， 并 且 使 它们 彼此 间 相 互 独 
立 。 如 果 在 另 一 台 主 机 上 尝试 相同 的 操作 来 建立 一 个 连接 会 出 现 什么 情况 呢 ? 下 面 将 根据 这 
一 想法 进行 测试 : 

(start server on first machine) 


Linux% sock -v -s 6666 


(connect to it from second - Windows - machine) 
C:\> sock -A -v 10.0.0.1 6666 


(server identifies incoming connection) 
connection on 10.0.0.1.6666 from 10.0.0.3.2172 


(client identifies connection establishment, and is interrupted) 
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connected on 10.0.0.3.2172 to 10.0.0.1.6666 
ag 
C:\> 


(server identifies connection has terminated and exits) 


connection closed by peer 
Linux’ 


f (client is restarted, specifying same port number as before) 


C:\> sock -A -b 2091 -v 10.0.0.1 6666 
connect() error: Address already in use 
C:\> sock -A -b 2091 -v 10.0.0.1 6666 
connect() error: Address already in use 


(wait 30 seconds and try again) 


C:\> sock -A -b 2091 -v 10.0.0.1 6666 
connect() error: Connection refused 


除了 客户 端 与 服务 器 在 不 同 的 主机 上 之 外 ， 上 述 例子 与 之 前 的 类 似 。 如 果 不 考 虑 客户 端 
的 -A 选项 ，2MSL 等 待 时 间 是 存在 的 。 此 处 ，2MSL 持续 了 30s 的 等 待 时 间 。 此 后 ， 客 户 端 
才 会 尝试 联系 服务 器 ， 然 而 此 时 服务 器 已 经 退出 。 

如 果 将 客户 端 与 服务 器 的 计算 机 对 换 将 会 出 现 一 些 有 趣 的 情况 。 现 在 ， 我 们 将 Windows 
系统 作为 服务 器 而 Linux 系统 作为 客户 端 ， 然 后 让 它们 重复 上 面 的 实验 : 

(start server on Windows machine) 


C:\> sock -v -s 6666 


(connect to it from second - Linux - machine) 
Linux® sock -A -v 192.168.10.145 6666 


(server identifies incoming connection) 
connection on 192.168.10.145.6666 from 192.168.10.145.32843 623 


(client identifies connection establishment, and is interrupted) 

connected on 192.168.10.144.32843 to 192.168.10.145.6666 
ag 

Linux$ŝ 


(server identifies connection has terminated and exits) 


connection closed by peer 
C:\> 


(client is restarted, specifying same port number as before) 


Linux% sock -A -b 32843 -v 192.168.10.144 6666 
bind() error: Connection refused 


此 时 ,我 们 希望 本 地 端口 32843 是 不 可 用 的 ， 但 是 由 于 在 Linux 上 运行 了 -A 选项 ， 所 
以 可 以 使 用 这 个 端口 。 这 一 点 违背 了 最 初 的 TCP 规范 ， 但 如 前 文 所 述 ， 它 是 被 [RFC1122] 
与 [RFC6191] 所 允许 的 。 如 果 有 充足 的 理由 相信 新 连接 的 报 文 段 不 会 因为 序列 号 、 时 间 惟 等 
问题 与 之 前 连接 实例 的 报 文 段 相 混淆 ， 那 么 在 当前 连接 尚 处 在 TIME_WAIT 状态 时 上 述说 明 
会 允许 一 条 新 连接 的 到 达 。[RFC1337] 与 [RFC1323] 的 附录 部 分 列 出 了 与 上 述 这 条 规则 相关 
的 常见 错误 。 
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13.5.3 ”静默 时 间 的 概念 


在 本 地 与 外 地 的 IP 地 址 、 端 口号 都 相同 的 情况 下 ，2MSL 状态 能 够 防止 新 的 连接 将 前 一 
个 连接 的 延迟 报 文 段 解释 成 自身 数据 的 状况 。 然 而 ， 上 述 方法 只 有 在 与 处 于 2MSL 等 待 状态 
的 连接 相关 的 主机 未 关闭 的 条 件 下 才 具 有 意义 。 

如 果 一 台 与 处 于 TIME_WAIT 状态 下 的 连接 相关 联 的 主机 前 省 ， 然 后 在 MSL 内 重新 启 
动 ， 并 且 使 用 与 主机 崩溃 之 前 处 于 TIME_WAIT 状态 的 连接 相同 的 卫 地 址 与 端口 号 ， 那么 
将 会 怎样 处 理 呢 ? 在 上 述 情况 下 ， 该 连接 在 主机 崩溃 之 前 产生 的 延迟 报 文 段 会 被 认为 属于 主 
机 重启 后 创建 的 新 连接 。 这 种 处 理 方式 将 不 会 考虑 在 主机 重启 之 后 新 连接 是 如 何 选择 初始 序 
列 号 的 。 

为 了 防止 上 述 情况 的 发 生 ，[RFC0793] 指出 在 前 溃 或 者 重启 后 TCP 协议 应 当 在 创建 新 
的 连接 之 前 等 待 相当 于 一 个 MSL 的 时 间 。 该 段 时 间 被 称 作 静默 时 间 。 然 而 只 有 极 少 数 实 现 
遵循 了 这 一 点 。 因 为 绝 大 多 数 的 主机 在 崩溃 之 后 都 需要 超过 一 个 MSL 的 时 间 才 能 重新 启动 。 
此 外 ， 如 果 上 层 应 用 程序 自身 已 采用 了 校 验 和 或 者 加 密 手 段 ， 那 么 此 类 错误 会 很 容易 检测 
出 来 。 


13.5.4 FIN _WAIT_2 状态 


在 FIN_WAIT 2 状态 ， 某 TCP 通信 端 已 发 送 一 个 FIN 并 已 得 到 另 一 端的 确认 。 除 非 出 
现 半 关闭 的 情况 ， 和 否则 该 TCP 端 将 会 等 待 另 一 端的 应 用 程序 识别 出 自己 已 接收 到 一 个 文件 
末尾 的 通知 并 关闭 这 一 端 引 起 发 送 FIN 的 连接 。 只 有 当 应 用 程序 完成 了 这 一 关闭 操作 ( 它 的 
FIN 已 经 被 接收 )， 正 在 关闭 的 TCP 连接 才 会 从 FIN_WAIT_2 状态 转移 至 TIME_WAIT 状态 。 
这 意味 着 连接 的 一 端 能 够 依然 永远 保持 这 种 状态 。 另 一 端 也 会 依然 处 于 CLOSE_WAIT 状态 ， 
并 且 能 永远 维持 这 一 状态 直到 应 用 程序 决定 宣布 它 的 关闭 。 

目前 有 许多 方法 都 能 够 防止 连接 进入 FIN_WAIT 2 这 一 无 限 等 待 状态 : 如 果 负 责 主 动 关 
闭 的 应 用 程序 执行 的 是 一 个 完全 关闭 操作 ， 而 不 是 用 一 个 半 关 闭 来 指明 它 还 期 望 接收 数据 ， 
那么 就 会 设置 一 个 计时 器 。 如 果 当 计时 器 超时 时 连接 是 空闲 的 ， 那 么 TCP 连接 就 会 转移 到 
CLOSED 状态 。 在 Linux 系统 中 ， 能 够 通过 调整 变量 net.ipv4.tcp_fin_timeout 的 数值 来 设置 
计时 器 的 秒 数 。 它 的 默认 值 是 60s。 


13.5.5 同时 打开 与 关闭 的 转换 


前 文 已 经 分 别 介绍 了 在 发 送 与 接收 SYN 报 文 段 时 SYN_SENT 状态 与 SYN_RCVD 状态 
的 用 途 。 如 图 13-3 Pras, TCP 协议 经 过 专门 的 设计 后 能 够 处 理 同 时 打开 的 情况 ， 并 且 只 
立 一 条 连接 。 当 同时 打开 的 情况 发 生 时 ，TCP 的 状态 迁移 过 程 不 同 于 图 13-9 的 例子 。 通 信 
的 两 端 几乎 在 相同 的 时 刻 都 会 发 送 一 个 SYN 报 文 段 ， 然 后 它们 进入 SYN_SENT 状态 。 当 它 
们 接收 到 对 方 发 来 的 SYN 报 文 段 时 会 将 状态 迁移 至 SYN_RCVD， 然 后 重新 发 送 一 个 新 的 
SYN 并 确认 之 前 接收 到 的 SYN。 当 通信 两 端 都 接收 到 了 SYN 5 ACK, 它们 的 状态 将 都 会 
迁移 至 ESTABLISHED。 

图 13-6 描述 了 TCP 同时 关闭 的 情况 。 当 应 用 程序 发 布 关闭 连接 的 消息 后 ， 通 信 两 端 
的 状态 都 会 从 ESTABLISHED 迁移 至 FIN_WAIT _ 1。 与 此 同时 ， 它 们 都 会 向 对 方 发 送 一 个 
FIN。 在 接收 到 对 方 发 来 的 FIN 后 ， 本 地 通信 端的 状态 将 从 FIN_WAIT_1 迁移 至 CLOSING。 
然后 ， 通 信 双 方 还 会 发 送 最 终 的 ACK。 当 接收 到 最 终 的 ACK 后 ， 每 个 通信 端 会 将 状态 更 改 
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为 TIME_ WAIT， 从 而 初始 化 2MSL 等 待 过 程 。 


13.6 BERNE 


第 12 章 介 绍 了 TCP 头 部 的 RST 位 字段 。 一 个 将 该 字段 置 位 的 报 文 段 被 称 作 “ 重 置 报 文 
段 ” 或 简称 为 “ 重 置 "。 一 般 来 说 ， 当 发 现 一 个 到 达 的 报 文 段 对 于 相关 连接 而 言 是 不 正确 的 
AY, TCP 就 会 发 送 一 个 重 置 报 文 段 。( 此 处 ， 相 关连 接 是 指 由 重 置 报 文 段 的 TCP 与 卫 头 部 的 
4 先 组 所 指定 的 连接 )。 重 置 报 文 段 通常 会 导致 TCP 连接 的 快速 拆卸 。 本 文 将 构建 一 些 场景 
来 证 明 重 置 报 文 段 的 用 途 。 


13.6.1 针对 不 存在 端口 的 连接 请 求 


通常 情况 下 ， 当 一 个 连接 请 求 到 达 本 地 却 没 有 相关 进程 在 目的 端口 侦 听 时 就 会 产生 一 个 
重 置 报 文 段 。 之 前 在 “连接 被 拒绝 ”的 错误 消息 中 已 经 介绍 过 这 种 情况 。 这 些 均 与 TCP 协议 
相关 。 根 据 第 10 章 的 内 容 ，UDP 协议 规定 ， 当 一 个 数据 报到 达 一 个 不 能 使 用 的 目的 端口 时 
就 会 生成 一 个 ICMP 目的 地 不 可 达 (端口 不 可 达 ) 的 消息 。TCP 协议 则 使 用 重 置 报 文 段 来 代 
蔡 完成 相关 工作 。 

这 样 的 例子 不 胜 枚 举 。 例 如 ， 我 们 可 以 使 用 Telnet 客户 端 并 指定 一 个 在 目的 主机 上 尚未 
使 用 的 端口 号 。 这 台 目 的 主机 也 可 以 是 本 地 的 计算 机 : 


Linux% telnet localhost 9999 
Trying 12700 1.0... 
telnet: connect to address 127.0.0.1: Connection refused 


Telnet 客户 端 会 快速 地 输出 上 述 错误 消息 。 清 单 13-5 显示 了 与 此 命令 相关 的 数据 包 交 换 
过 程 。 


清单 13-5 ”对 一 个 不 存在 的 端口 尝试 打开 连接 时 所 长 生 的 重 置 报 文 段 

1 22:15:16.348064 127.0.0.1.32803 > 127.0.0.1.9999: 

S [tcp sum ok] 3357881819:3357881819(0) win 32767 

<mss 16396,sackOK,timestamp 16945235 0,nop,wscale 0> 

(DF) [tos 0x10] (ttl 64, id 42376, len 60) 
2 22:15216.348105 127.0.0.1.9999 > 127.0.0.1.32803: 

R [tcp sum ok] 0:0(0) ack 3357881820 win 0 

(DF) [tos 0x10] (ttl 64, id 0, len 40) 


清单 13-5 中 需要 查看 的 数值 包括 重 置 (第 2 个 ) 报 文 段 中 的 序列 号 字段 与 ACK 号 字段 。 
由 于 到 达 的 SYN 报 文 段 未 打开 ACK 位 字段 ， 重 置 报 文 段 的 序列 号 字段 被 设置 为 0， 而 ACK 
号 的 大 小 则 等 于 接收 到 的 初始 序列 号 加 上 该 报 文 段 中 数据 的 字 节 数 。 虽 然 到 达 的 报 文 段 中 并 
不 含有 任何 数据 ，SYN 位 在 逻辑 上 仍 会 占用 一 个 字 节 的 序列 号 空间 。 因 此 ， 在 这 个 例子 中 重 
置 报 文 段 中 的 ACK 号 等 于 初始 序列 号 加 上 数据 长 度 0， 再 加 上 SYN 位 的 1 字 节 。 

对 于 一 个 被 TCP 端 接收 的 重 置 报 文 段 而 言 ， 它 的 ACK 位 字段 必须 被 置 位 ， 并 且 ACK 
号 字段 的 数值 必须 在 正确 窗口 的 范围 内 (参见 第 12 章 )。 这 样 有 助 于 防止 一 种 简单 的 攻击 。 
在 这 种 攻击 中 任何 人 都 能 够 生成 一 个 与 相应 连接 (4 元 组 ) 匹配 的 重 置 报 文 段 ， 从 而 扰乱 这 
个 连接 [RFC5961]。 


13.6.2 ”终止 一 条 连接 
从 图 13-1 可 以 看 出 终止 一 条 连接 的 正常 方法 是 由 通信 一 方 发 送 一 个 FIN。 这 种 方法 有 
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时 也 被 称 为 有 序 释放 。 因 为 FIN 是 在 之 前 所 有 排队 数据 都 已 发 送 后 才 被 发 送出 去 ， 通 常 不 会 
出 现 委 失 数据 的 情况 。 然 而 在 任何 时 刻 ， 我 们 都 可 以 通过 发 送 一 个 重 置 报 文 段 奉 代 FIN 来 终 
止 一 条 连接 。 这 种 方式 有 时 被 称 作 终止 释放 。 
终止 一 条 连接 可 以 为 应 用 程序 提供 两 大 特性 : (1 ) 任何 排队 的 数据 都 将 被 抛弃 ， 一 个 重 
置 报 文 段 会 被 立即 发 送出 去 ; (2) 重 置 报 文 段 的 接收 方 会 说 明 通 信 另 一 端 采用 了 终止 的 方式 
而 不 是 一 次 正常 关闭 。API 必须 提供 一 种 实现 上 述 终止 行为 的 方式 来 取代 正常 的 关闭 操作 。 
BERF API 通过 将 “逗留 于 关闭 ” 套 接 字 选项 (SO_LINGER) 的 数值 设置 为 0 来 实现 
上 述 功能 。 从 本 质 上 说 ， 这 意味 着 “不 会 在 终止 之 前 为 了 确定 数据 是 否 到 达 另 一 端 而 逗留 任 
何 时 间 ”。 下 面 的 例子 展示 了 当 一 个 产生 大 量 输 出 的 远程 命令 被 用 户 取 消 时 所 发 生 的 状况 : 


Linux’ ssh linux cat /usr/share/dict/words 


Aarhus 
Aaron 
Ababa 
aback 
abaft 
abandon 
abandoned 
abandoning 
abandonment 
abandons 


。 continues ... 


^C 


Killed by signal 2. 


此 处 ， 用 户 决定 终止 这 条 命令 的 输出 行为 。 由 于 单词 文件 中 包含 了 45427 个 字 ， 
令 很 可 能 是 某 种 错误 。 当 用 户 键 和 人 中断 字符 时 ， 系 统 显示 对 应 进程 (此 处 为 ssh 程序 ) 已 经 被 
2 号 信号 终止 。 该 信号 被 称 作 SIGIHT， 常 用 于 终止 一 些 交付 的 程序 。 清 单 13-6 显示 了 上 述 
例子 中 tcpdump 的 相应 输出 结果 (由 于 与 本 文 的 讨论 无 关 ， 大 量 的 中 间 数 据 包 已 被 删除 )。 


清单 13-6 ”使 用 重 置 报 文 段 (RST) 代替 FIN 报 文 段 来 终止 一 条 连接 


Linux# tcpdump -vvv -s 1500 tcp 


1 22:33:06. 


2 22:33:06. 


3 22:33:06. 


386747 192.168.10.140.2788 > 192.168.10.144.ssh: 
S [tcp sum ok] 1520364313:1520364313(0) win 65535 
<mss 1460,nop,nop,sackOK> 

(DF) (ttl 128, id 43922, len 48) 


386855 192.168.10.144.ssh > 192.168.10.140.2788: 

S [tcp sum ok] 181637276:181637276(0) ack 1520364314 
win 5840 

<mss 1460,nop,nop,sackOK> 

(DF) (ttl 64, id 0, len 48) 


387676 192.168.10.140.2788 > 192.168.10.144.ssh: 
。 [tcp sum ok] 1:1(0) ack 1 win 65535 
(DF) (ttl 128, id 43923, len 40) 


(... ssh encrypted authentication exchange and bulk data transfer ...) 


4 22:33:13.6 


48247 192.168.10.140.2788 > 192.168.10.144.ssh: 
R [tcp sum ok] 1343:1343(0) ack 132929 win 0 
(DF) (ttl 128, id 44004, len 40) 


这 个 命 


报 文 段 1 ~ 3 显示 了 正常 连接 的 建立 过 程 。 当 中 断 字 符 被 键 人 之 后 ， 连 接 被 终止 。 重 置 
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报 文 段 中 包含 了 一 个 序列 号 与 一 个 确认 号 。 还 需要 注意 的 是 重 置 报 文 段 不 会 令 通信 另 一 端 做 
出 任何 响应 一 一 它 不 会 被 确认 。 接 收 重 置 报 文 段 的 一 端 会 终止 连接 并 通知 应 用 程序 当前 连接 
已 被 重 置 。 这 样 通常 会 造成 “连接 被 另 一 端 重 置 ”的 错误 提示 或 类 似 的 消息 。 


13.6.3 FER 

如 果 在 未 告知 另 一 端的 情况 下 通信 的 一 端 关 闭 或 终止 连接 ， 那 么 就 认为 该 条 TCP 连接 
妊 于 半 开 状态 。 这 种 情况 发 生 在 通信 一 方 的 主机 崩溃 的 情况 下 。 只 要 不 尝试 通过 半 开 连接 传 
输 数 据 ， 正 常 工 作 的 一 端 将 不 会 检测 出 另 一 端 已 经 崩溃 。 

产生 半 开 连接 的 另 一 个 共同 原因 是 某 一 台 主 机 的 电源 被 切断 而 不 是 被 正常 关机 。 这 种 情 
况 可 能 发 生 于 下 面 的 例子 中 : 某 些 个 人 电脑 运行 了 远程 登录 客户 端 ， 并 且 在 一 天 结束 时 关闭 。 
如 果 在 电源 被 切断 时 没有 数据 在 传输 ， 那 么 服务 器 永远 也 不 会 知道 该 客户 端 已 经 消失 ( 它 可 
能 还 一 直 会 认为 该 连接 处 于 ESTABLISHED 状态 )。 当 第 二 天 早晨 用 户 回来 ， 启 动 电脑 并 开 
始 一 个 新 的 会 话 时 ， 服 务 器 会 启动 一 个 新 的 服务 进程 。 这 样 会 导致 服务 器 上 有 很 多 半 开 的 
TCP 连接 (第 17 章 将 会 介绍 一 种 方法 ， 使 TCP 连接 的 一 端 能 够 利用 TCP 的 keepalive 选项 
发 现 另 一 端 已 经 消失 ) 。 

我 们 能 够 很 容易 地 创建 一 个 半 开 连接 。 在 这 种 情况 下 ， 将 在 客户 端 而 不 是 服务 器 做 一 些 
尝试 。 我 们 在 主机 10.0.0.1 上 执行 Telnet 客户 端 程序 ， 连 接 Sun 公司 提供 远程 过 程 调用 服务 
(sunrpc， 端 口号 111) 的 服务 器 。 如 清单 13-7 所 示 ， 该 服务 器 的 卫 为 10.0.0.7。 我 们 键入 一 
行 输入 ， 并 利用 tcpdump 观察 它们 的 交互 过 程 ， 然 后 断 开 服 务 器 主机 的 以 太 网 连接 并 重新 启 
动 这 台 主 机 。 这 样 就 能 模拟 服务 器 崩 演 的 情况 。( 我 们 在 重启 服务 器 之 前 断 开 以 太 网 连接 是 
为 了 防止 其 通过 已 开启 的 连接 发 送 一 个 FIN。 一 些 TCP 会 在 其 关闭 时 完成 上 述 操作 。) 在 服 
务 器 重启 之 后 ， 我 们 重新 连接 以 太 网 并 且 尝 试 从 客户 端 向 服务 器 发 送 男 一 行 命令 。 在 重启 之 
后 ， 服 务 器 的 TCP 会 丢失 之 前 所 有 连接 的 记忆 ， 因 此 它 对 数据 段 中 指出 的 这 条 连接 一 无 所 
知 。 此 时 ，TCP 规定 接收 者 将 回复 一 个 重 置 报 文 段 作为 响应 。 


清单 13-7 服务 器 主机 被 切断 连接 后 重启 ， 留 给 客户 端 一 个 半 开 的 连接 。 当 再 次 从 这 条 连接 上 接收 到 

其 他 数据 时 ， 服 务 器 对 其 一 无 所 知 。 在 服务 器 回复 一 个 重 置 报 文 段 作为 响应 之 后 ， 两 端 之 
间 的 连接 会 被 关闭 

Linux% telnet 10.0.0.7 sunrpc 

Trying 1000s Ta 

Connected to 10.0.0.7. 

Escape character is '^]'. 

foo 

(Ethernet cable disconnected and server rebooted) 

bar 

Connection closed by remote host 


清单 13-8 显示 了 该 例 的 tcpdump 输出 。 
清单 13-8 在 半 开 连接 中 ， 重 置 报 文 段 作 为 之 前 数据 段 的 响应 


1 23:15:48.804142 IP (tos 0x10, ttl 64, id 20095, offset 0, 
flags [DF], proto 6, length: 60) 
10.0.0.1.1310 > 10.0.0.7.sunrpc: 
S [tcp sum ok] 2365970104:2365970104(0) win 5840 
<mss 1460,sackOK,timestamp 3849492679 0,nop,wscale 2> 
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2 23:15:48.804742 IP (tos 0x0, ttl 64, id 0, offset 0, flags [DF], 
proto 6, length: 60) 
10.0.0.7.sunrpe > 10.0.0.1.1310: 
S [tcp sum ok] 2093796387:2093796387(0) ack 2365970105 win 5792 
<mss 1460,sackOK,timestamp 654784 3849492679,nop,wscale 0> 


3 23:15:48.805028 IP (tos 0x10, ttl 64, id 20097, offset 0, 
flags [DF], proto 6, length: 52) 
10.0.0.1.1310 > 10.0.0.7.sunrpc: 
[tcp sum ok] 1:1(0) ack 1 win 1460 
<nop,nop,timestamp 3849492680 654784> 


4 23:15:51.999394 IP (tos 0x10, ttl 64, id 20099, offset 0, 
flags [DF], proto 6, length: 57) 
10.0.0.1.1310 > 10.0.0.7.sunrpc: 
P [tcp sum ok] 1:6(5) ack 1 win 1460 
<nop,nop,timestamp 3849495875 654784> 


5 23:15:51.999874 IP (tos 0x0, ttl 64, id 12773, offset 0, 
flags [DF], proto 6, length: 52) 
10.0.0.7.sunrpe > 10.0.0.1.1310: 
[tcp sum ok] 1:1(0) ack 6 win 5792 
<nop,nop,timestamp 656421 3849495875> 


6 23:17:19.419611 arp who-has 10.0.0.7 (Broadcast) tell 0. 
7 23:17:20.419142 arp who-has 10.0.0.7 (Broadcast) tell 0. 
8 23:17:21.427458 arp reply 10.0.0.7 is-at 00:e0:00:88:ad: 


Boo 


9 23:17:21.921745 arp who-has 10.0.0.1 tell 10.0.0.7 
10 23:17:21.921892 arp reply 10.0.0.1 is-at 00:04:5a:9f:9e:80 


11 23:17:23.437114 arp who-has 10.0.0.7 (Broadcast) tell 10.0.0.7 


12 23:17:34.804196 arp who-has 10.0.0.7 tell 10.0.0.1 
13 23:17:34.804650 arp reply 10.0.0.7 is-at 00:e0:00:88:ad:d6 


14 23:17:43.684786 IP (tos 0x10, ttl 64, id 20101, offset 0, 
flags [DF], proto 6, length: 57) 
10.0.0.1.1310 > 10.0.0.7.sunrpe: 
P [tcp sum ok] 6:11(5) ack 1 win 1460 
<nop,nop,timestamp 3849607577 656421> 


15 23:17:43.685277 IP (tos 0x10, ttl 64, id 0, offset 0, 
flags [DF], proto 6, length: 40) 
10.0.0.7.sunrpe > 10.0.0.1.1310: 
R [tcp sum ok] 2093796388:2093796388(0) win 0 


报 文 段 1 ~ 3 描述 了 正常 的 连接 建立 过 程 。 报 文 段 4 将 “ foo” 行 发 送 至 sunrpe 服务 器 
(包括 回 车 符 与 换行 符 共 需 要 5 个 字 节 )。 报 文 段 5 则 完成 确认 工作 。 

此 时 ， 我 们 断 开 服务 器 端 ( 地 址 10.0.0.7 ) 的 以 太 网 连接 ， 然 后 重启 服务 器 并 重新 接 入 
以 太 网 。 上 述 操作 大 约 花 费 90 秒 的 时 间 。 然 后 ,我们 在 客户 端 键 入 一 行 新 的 输入 (“bar” )。 
当 我 们 按 下 回 车 键 后 ， 这 一 行 输入 将 会 发 送 至 服务 器 (如 清单 13-9 所 示 ， 在 ARP 流量 之 后 
的 第 一 个 TCP 报 文 段 中 )。 由 于 该 服务 器 不 再 记得 之 前 的 这 条 连接 ， 所 以 上 述 操作 将 引起 服 
务 器 端的 重 置 响应 。 

需要 注意 的 是 当主 机 重新 启动 时 ， 它 将 使 用 免费 的 ARP 协议 (参见 第 4 章 ) 来 确定 自己 
的 IPv4 地 址 是 否 已 经 被 其 他 报 文 段 使 用 ， 而 这 些 报 文 段 是 属于 其 他 主机 的 。 它 还 会 请 求 与 


TCP #2E HE 451 


IP 地 址 10.0.0.1 对 应 的 MAC 地 址 ， 因 为 这 是 它 对 于 Internet 的 默认 路 由 。 


13.6.4 ”时 间 等 待 错 误 


如 前 文 所 述 ， 设 计 TIME_WAIT 状态 的 目的 是 允许 任何 受制 于 一 条 关闭 连接 的 数据 报 被 
丢弃 。 在 这 段 时 期 ， 等 待 的 TCP 通常 不 需要 做 任何 操作 ， 它 只 需要 维持 当前 状态 直到 2MSL 
的 计时 结束 。 然 而 ， 如 果 它 在 这 段 时 期 内 接收 到 来 自 于 这 条 连接 的 一 些 报 文 段 ， 或 是 更 加 特 
到 的 重 置 报 文 段 ， 它 将 会 被 破坏 。 这 种 情况 被 称 作 时 间 等 待 错误 (TIME-WAIT Assassination 
TWA, ÆJ [RFC1337])。 图 13-10 展示 了 数据 包 的 交换 过 程 。 


主动 开启 者 被 动 开启 者 
(EAH) ( 服务 器 ) 
‘ 
ji : : 
+ [数据 传输 开始 ] 
6 L] 













FIN + ACK, Seq=K- 1, ACK =L- | 
a ACK, Seq=L- 1, ACK =K 


< FN+ACK,Seq=L- 1,ACK=K 
TIME_WAIT 


CLOSED 


ACK, Seq = K, ACK = 
; S| 
ea K 222 (未知) 
CLOSED RST + ACK, Seq = L, ACK = 


(提前 ) 


图 13-10 一 个 重 置 报 文 段 能 “破坏 ”TIME_WAIT 状态 并 强制 连接 提前 关闭 。 目 前 有 很 多 方法 来 阻止 
这 一 问题 ， 其 中 包括 在 处 于 TIME_ WAIT 状态 时 忽略 重 置 报 文 段 





在 图 13-10 的 例子 中 ， 服 务 器 完成 了 其 在 连接 中 的 角色 所 承担 的 工作 并 清除 了 所 有 状 
态 。 客 户 端 依然 保持 TIME_WAIT 状态 。 当 完成 FIN 交换 ， 客 户 端的 下 一 个 序列 号 为 K， 而 
服务 器 的 下 一 个 序列 号 为 L。 最 近 到 达 的 报 文 段 是 由 服务 器 发 送 至 客户 端 ， 它 使 用 的 序列 
SAL-100, 包含 的 ACK 号 为 K - 200。 当 客户 端 接收 到 这 个 报 文 段 时 ， 它 认为 序列 号 与 
ACK 号 的 数值 都 是 “ 旧 ” 的 。 当 接收 到 旧 报 文 段 时 ，TCP 会 发 送 一 个 ACK 作为 响应 ， 其 中 
包含 了 最 新 的 序列 号 与 ACK 号 (分 别 是 K 与 7)。 然 而 ， 当 服务 器 接收 到 这 个 报 文 段 以 后 ， 
它 没 有 关于 这 条 连接 的 任何 信息 ， 因 此 发 送 一 个 重 置 报 文 段 作 为 响应 。 这 并 不 是 服务 器 的 问 
题 ， 但 它 却 会 使 客户 端 过 早 地 从 TIME WAIT 状态 转移 至 CLOSED 状态 。 许 多 系统 规定 当 
处 于 TIME_WAIT 状态 时 不 对 重 置 报 文 段 做 出 反应 ， 从 而 避免 了 上 述 问题 。 


13.7 TCP 服务 器 选项 


第 1 章 曾 介绍 过 ， 大 多 数 TCP 服务 器 是 并 发 的 。 当 一 个 新 的 连接 请 求 到 达 服务 器 时 ， 服 
务 器 接受 该 连接 ， 并 调用 一 个 新 的 进程 或 线程 来 处 理 新 的 客户 端 。 根 据 不 同 的 操作 系统 ， 各 
种 其 他 的 资源 也 可 以 被 分 配 来 调用 新 的 服务 器 。 我 们 对 多 个 并 行 服务 器 间 的 TCP 交互 非常 感 
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兴趣 ， 尤 其 希望 了 解 TCP 服务 器 是 如 何 使 用 端口 号 的 ， 以 及 如 何 处 理 多 个 并 发 客户 端的 。 


13.7.1 TCP 端口 号 


可 通过 观察 任何 一 台 TCP 服务 器 来 了 解 TCP 是 如 何 处 理 端 口号 的 。 在 一 台 拥 有 IPv4 与 
IPv6 双 协 议 栈 的 主机 上 利用 netstat 命令 观察 安全 外 壳 服 务 器 (也 称 作 sshd). sshd 应 用 程序 
执行 的 是 安全 外 壳 协 议 [RFC4254]。 该 协议 能 够 提供 可 加 密 认证 的 远程 终端 功能 。 下 面 的 输 
出 结果 来 自 于 没有 主动 安全 外 壳 连 接 的 系统 (除了 与 服务 器 相关 的 输出 外 ， 其 他 所 有 的 输出 
行 都 已 被 删除 ): 


Linux% netstat -a -n -t 

Active Internet connections (servers and established) 

Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 £3322 feet LISTEN 


-a 选项 能 够 报告 所 有 的 网 络 节点 ， 包 括 那些 处 于 侦 听 状态 和 未 处 于 侦 听 状态 的 节点 。-n 
选项 以 点 分 十 进 制 (或 十 六 进 制 ) 数 的 形式 打印 IP 地 址 ， 而 不 会 试图 利用 DNS 将 地 址 转换 
为 一 个 域名 。 此 外 ,该 选项 还 会 打印 数值 端口 号 (例如 22 )， 而 不 是 服务 名 (例如 ssh)。-t 
选项 用 于 只 选择 TCP 节点 。 

本 地 地 址 (这 实际 意味 着 本 地 节点 ) 的 输出 结果 为 :::22。 这 种 面向 IPv6 的 方式 表示 的 是 
全 0 地址， 也 被 称 作 通配符 地 址 ， 并 使 用 端口 号 22。 这 意味 着 一 个 针对 22 号 端口 的 连接 进 
入 请 求 ( 即 一 个 SYN) 会 被 任何 本 地 接口 接受 。 如 果 主 机 是 多 宿主 的 (此 例 即 是 )， 我们 可 以 
为 本 地 IP 地 址 指定 一 个 单一 的 地 址 (主机 IP 地 址 中 的 一 个 地 址 )， 并 且 只 有 被 该 接口 接收 到 
的 连接 才能 够 被 接受 (参见 本 节 后 面 的 例子 )。 端 口号 22 是 为 安全 外 壳 协 议 预 留 的 知名 端口 
号 。 其 他 端口 号 是 由 网 络 编号 分 配 机 构 (ITNA) 来 维护 的 。 

外 部 地 址 的 输出 结果 为 ::* ， 这 表示 一 个 通配符 地 址 与 端口 号 〈( 即 ， 一 个 通配符 节点 )。 
此 处 由 于 本 地 节点 处 于 LISTEN 状态 ， 正 等 待 一 个 连接 的 到 来 ， 因 此 外 部 地 址 与 外 部 端口 号 
尚 不 知晓 。 现 在 我 们 在 主机 10.0.0.3 上 启动 一 个 安全 外 壳 客 户 端 来 连接 该 服务 器 。 下 面 是 从 
netstat 输出 的 相关 行 (RECV-Q 与 Send-Q 列 只 包含 零 值 ， 为 清楚 起 见 ， 将 其 删除 ): 


Linux% netstat -a -n -t 


Active Internet connections (servers and established) 

Proto Local Address Foreign Address State 

tcp 22322 EN kad LISTEN 

tcp PSELELS10.0.0.1222 STEE: 1050:05 3316137 ESTABLISHED 


标 有 端口 号 “22” 的 第 2 行 是 一 个 ESTABLISHED 连接 。 本 地 与 外 地 节点 相关 的 4 元 
组 都 会 填写 在 这 个 连接 中 ， 其 中 包括 : 本 地 全 地 址 与 端口 号 ， 外 地 IP 地 址 与 端口 号 。 本 
地 他 地 址 与 连接 请 求 到 达 的 接口 相关 (以太 网 接口 通过 与 IPv4 地 址 映射 的 IPv6 地 址 
::ffff:10.0.0.1 进行 标识 )。 

处 于 LISTEN 状态 的 本 地 节点 会 独自 地 运行 。 它 用 于 为 并 行 服务 器 接收 未 来 可 能 出 现 的 
请 求 。 当 有 新 的 连接 请 求 到 达 并 被 接收 时 ， 操 作 系统 中 的 TCP 模块 创建 处 于 ESTABLISHED 
状态 的 新 节点 。 同 样 需要 注意 的 是 ， 当 连接 处 于 ESTABLISHED 状态 时 ， 它 的 端口 号 仍 为 
22， 与 LISTEN 状态 时 相同 。 
现在 我 们 从 同一 个 系统 (10.0.0.3 ) 向 服务 器 发 送 另 一 个 客户 端 请 求 。 相 关 的 netstat 输 
出 如 下 : l 
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Linux’ netstat -a -n -t 
Active Internet connections (servers and established) 


Proto Local Address Foreign Address State 

tcp 82222 s23* LISTEN 

tcp ::f£fff£:10.0.0.1:22 ::ffff:10.0.0.3:16140 ESTABLISHED 
tcp ss ffff:10.0.0.1:22. :sffEF210.0.0.3216137 ESTABLISHED 


现在 我 们 有 两 个 处 于 ESTABLISHED 状态 的 连接 。 它 们 从 同一 个 客户 端 到 相同 的 服务 器 
端 。 两 条 连接 的 服务 器 端口 号 均 为 22。 由 于 外 地 端口 号 不 同 ， 因 此 这 并 不 算是 一 个 TCP 错 
误 。 这 两 个 外 地 端口 必须 是 不 同 的 。 因 为 每 个 安全 外 壳 程 序 使 用 的 是 一 个 临时 端口 ， 而 每 一 
个 临时 端口 在 定义 时 都 是 主机 ( 10.0.0.3 ) 尚未 使 用 的 端口 。 

这 个 例子 再 次 说 明 TCP 依靠 4 元 组 多 路 分 解 (demultiplex) 了 获得 的 报 文 段 。 目 的 IP 
地 址 与 目的 端口 号 、 源 IP 地 址 与 源 端口 号 ， 这 4 元 组 共同 构成 了 本 地 与 外 地 节点 。TCP 协 
议 不 能 仅 私 根据 目的 端口 号 来 决定 哪 一 个 进程 该 得 到 接收 的 报 文 段 。 在 所 有 三 个 节点 中 只 有 
位 于 端口 22 的 节点 会 处 于 LISTEN 状态 并 接收 进入 的 连接 请 求 。 处 于 ESTABLISHED 状态 
的 节点 不 能 接收 SYN 报 文 段 ， 而 处 于 LISTEN 状态 的 节点 则 不 能 接收 数据 段 。 例 子 中 主机 
的 操作 系统 已 经 证 实 了 这 一 点 。( 如 果 不 能 如 此 ，TCP 就 会 变 得 非常 混乱 ， 从 而 不 能 正常 地 
THE) 

下 面 我 们 发 起 第 三 个 客户 端 连接 。 这 条 连接 来 自卫 地 址 169.229.62.97, 通过 DSL 
PPPoE 链 路 与 服务 器 10.0.0.1 相连 。 因 此 这 个 客户 端 与 服务 器 不 处 于 同一 个 以 太 网 。( 为 了 清 
楚 起 见 ， 下 面 的 输出 结果 移 除 了 Proto 列 ， 只 留 下 了 tep 部 分 。) 


Linux’ netstat -a -n -t 
Active Internet connections (servers and established) 


Send-Q Local Address Foreign Address State 
0 $2222 :::* LISTEN 
0 ::££££210.0.0.1222 ::f£f£f£:10.0.0.3:16140 ESTABLISHED 
0 :sf£EF210..0.051¢22 ::f£ff£:10.0.0.3:16137 ESTABLISHED 


928 ::ffff:67.125.227.195:22 ::ffff£:169.229.62.97:1473 ESTABLISHED 


在 这 台 多 宿主 的 主机 上 ， 第 三 条 ESTABLISHED 连接 的 IP ibh PPPoE 链 路 的 接口 地 
hE (67.125.227.195 ) 相关 联 。 值 得 注意 的 是 Send-Q 状态 的 数值 并 不 是 0， 而 是 被 928 F 
所 代替 。 这 意味 着 服务 器 已 经 在 这 条 连接 上 发 送 了 928 字 节 的 数据 但 仍然 未 收 到 任何 确认 。 


13.7.2 ”限制 本 地 IP 地址 


本 节 将 介绍 当 服务 器 不 能 借助 通配符 处 理 某 个 本 地 IP 地 址 而 将 其 设置 为 一 个 特殊 的 本 
地 地 址 时 发 生 的 情况 。 如 果 我 们 将 sock 程序 当 作 服务 器 运行 并 为 其 提供 一 个 特殊 的 IP 地 址 ， 
那么 该 地 址 将 成 为 监听 端的 本 地 P 地 址 。 例 如 : 


Linux% sock -s 10.0.0.1 8888 


这 样 就 限制 了 服务 器 只 能 使 用 到 达 本 地 IPv4 地 址 10.0.0.1 的 连接 。 下 面 netstat 的 输出 结果 
反映 了 这 一 点 : 


Linux% netstat -a -n -t 

Active Internet connections (servers and established) 

Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 10.0.0.1:8888 0.0.0.0:* LISTEN 


在 上 述 例子 中 特别 有 趣 的 是 我 们 的 sock 程序 只 与 本 地 IP v4 地 址 10.0.0.1 绑 定 ， 所 以 
netstat 的 输出 结果 与 之 前 不 同 。 在 之 前 的 例子 中 ， 通 配 符 地 址 与 端口 号 标识 了 两 种 版 本 的 IP 


454 IË 


地 址 。 在 这 种 情况 下 ， 我 们 绑 定 了 一 个 特殊 的 地 址 、 端 口 或 地 址 族 (只 适用 IPv4 )。 如 果 我 
们 从 本 地 网 络 连接 这 人 台 服 务 器 ， 比 如 从 主机 10.0.0.3， 那 么 正常 工作 的 记录 情况 如 下 : 


Linux% netstat -a -n -t 
Active Internet connections (servers and established) 


Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 0 10.0.0.1:8888 0.0.0.0:* LISTEN 
tcp 0 0 10.0.0.1:8888 10.0.0.3:16153 ESTABLISHED 


如 果 我 们 从 一 台 目 的 地 址 不 是 10.0.0.1 (甚至 包括 本 地 地 址 127.0.0.1) 的 主机 连接 服务 
， 连 接 请 求 将 不 会 被 TCP 模块 接收 。 如 果 我 们 查看 tcpdump，SYN 会 引发 一 个 RST 报 文 
， 如 清单 13-9 所 示 。 


清单 13-9 ”根据 服务 器 的 本 地 IP 地 址 拒绝 一 个 连接 请 求 
1 22:29:19.905593 IP 127.0.0.1.1292 > 127.0.0.1.8888: 
S 591843787:591843787(0) win 32767 
<mss 16396,sackOK,timestamp 3587463952 0,nop,wscale 2> 
2 22:29:19.906095 IP 127.0.0.1.8888 > 127.0.0.1.1292: 
R 0:0(0) ack 591843788 win 0 


RE RE 





服务 器 的 应 用 程序 将 不 会 察觉 到 连接 请 求 一 一 因为 拒绝 接收 的 操作 是 由 操作 系统 的 TCP 
模块 根据 该 应 用 程序 指定 的 本 地 IP 地 址 与 SYN 报 文 段 中 包含 的 目的 地 址 做 出 的 。 我 们 发 现 
限制 本 地 IP 地 址 的 能 力 是 相当 严格 的 。 


13.7.3 限制 外 部 节点 


根据 第 10 章 的 介绍 ， 一 台 UDP 服务 器 不 仅 能 够 指定 本 地 IP 地 址 与 本 地 端口 号 ， 还 能 
够 指定 外 部 IP 地 址 与 外 部 端口 号 。[RFC0793] 所 介绍 的 TCP 的 抽象 接口 函数 允许 一 台 服 务 
器 为 一 个 完全 指定 的 外 部 节点 (等待 一 个 特定 的 客户 端 以 发 起 一 个 主动 打开 ) 或 者 一 个 未 被 
指定 的 外 部 节点 (等待 任 何 客 户 端 ) 执行 被 动 打开 。 

不 幸 的 是 ， 普 通 的 伯克利 套 接 字 API 没有 提供 实现 这 一 点 的 方法 。 服 务 器 不 必 指 定 客户 
端的 节点 ， 而 是 等 待 连接 的 到 来 ， 然 后 检查 客户 端的 IP 地 址 与 端口 号 。 表 13-3 概括 了 TCP 
服务 器 能 够 建立 的 三 种 类 型 的 地 址 绑 定 。 


表 13-3 可 用 于 TCP 服务 器 的 地 址 与 端口 号 绑 定 选 项 
er 
De) aa | 
Pee o 


在 上 述 例子 中 ，local port 是 服务 器 被 分 配 的 端口 号 ， 而 local IP 必须 是 一 个 应 用 于 本 
地 系统 的 单 播 IP 地 址 。 表 13-3 中 三 行 的 排列 顺序 显示 了 当 收 到 一 个 连接 请 求 时 TCP 模块 
决定 选择 哪 一 个 节点 的 次 序 。 最 明确 的 绑 定 〈 第 1 行 ， 如 果 支 持 的 话 ) 将 会 被 首先 尝试 ， 而 
最 不 明确 的 绑 定 (最 后 一 行 ，, 所 有 的 IP 地 址 都 用 通配符 表示 ) 将 会 被 最 后 尝试 。 对 于 同时 
支持 IPv4 与 IPv6 双 协 议 栈 的 系统 ， 它 的 端口 号 空间 可 能 会 出 现 混合 的 情况 。 从 本 质 上 说 ， 
这 意味 着 如 果 服 务 器 使 用 IPv6 地 址 绑 定 了 一 个 端口 号 ， 那 么 也 就 将 该 端口 号 应 用 于 了 IPv4 
地 址 。 



















local_IP.lport 








不 常见 (用 于 DNS 服务 器 ) 
最 常见 ， 多 地 址 族 (IPv4/IPv6 ) 可 能 会 被 支持 


local_IP.lport 


* local_port 
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13.7.4 进入 连接 队列 


一 个 并 行 的 服务 器 会 为 每 一 个 客户 端 分 配 一 个 新 的 进程 或 线程 ， 这 样 负责 侦 听 的 服务 器 
能 够 始终 准备 着 处 理 下 一 个 到 来 的 连接 请 求 。 这 是 使 用 并 行 服务 器 的 根本 原因 。 然 而 ， 在 侦 
听 服 务 器 正 创 建 一 个 新 进程 时 ， 或 者 在 操作 系统 忙于 运行 其 他 高 优先 级 的 进程 时 ， 甚 至 更 精 
的 是 在 服务 器 正在 被 伪造 的 连接 请 求 (这 些 伪 造 的 建立 连接 请 求 是 不 被 允许 的 ) 攻击 时 ， 多 
个 淮 接 请 求 可 能 会 到 达 。 在 这 些 情 况 下 ，TCP 应 当 如 何 处 理 呢 ? 

为 了 充分 探讨 这 个 问题 ， 我 们 首先 必须 认识 到 ， 在 被 用 于 应 用 程序 之 前 新 的 连接 可 能 会 
处 于 下 述 两 个 状态 。 一 种 是 连接 尚未 完成 但 是 已 经 接收 到 SYN (也 就 是 处 于 SYN_RCVD 状 
态 )。 另 一 种 是 连接 已 经 完成 了 三 次 握手 并 且 处 于 ESTABLISHED 状态 ,但 还 未 被 应 用 程序 
接受 。 因 此 在 内 部 操作 系统 通常 会 使 用 两 个 不 同 的 连接 队列 分 别 对 应 上 述 两 种 不 同 的 情况 。 

应 用 程序 通过 限制 这 些 队 列 的 大 小 来 进行 控制 。 传 统 上 ， 使 用 伯克利 套 接 字 API 应 用 程 
序 只 能 间接 地 控制 这 两 个 队列 的 大 小 总 和 。 在 现代 的 Linux 内 核 中 ， 这 种 行为 已 更 改 为 第 二 
种 状况 下 的 连接 数目 (ESTABLISHED 状态 的 连接 )。 因 此 ， 应 用 程序 能 够 限制 完全 形成 的 等 
待 处 理 的 连接 数目 。 在 Linux 中 ， 将 会 适用 以 下 规则 : 

1. 当 一 个 连接 请 求 到 达 ( 即 ，SYN 报 文 段 )， 将 会 检查 系统 范围 的 参数 net.ipv4.tcp_ 
max_syn_backlog (默认 为 1000 )。 如 果 处 于 SYN_RCVD 状态 的 连接 数目 超过 了 这 一 阅 值 ， 
进入 的 连接 将 会 被 拒绝 。 

2. 每 一 个 处 于 侦 听 状态 下 的 节点 都 拥有 一 个 固定 长 度 的 连接 队列 。 其 中 的 连接 已 经 被 
TCP 完全 接受 ( 即 三 次 握手 已 经 完成 )， 但 未 被 应 用 程序 接受 。 应 用 程序 会 对 这 一 队列 做 出 限 
制 ， 通 常 称 为 未 完成 连接 (backlog). backlog 的 数目 必须 在 0 与 一 个 系统 指定 的 最 大 值 之 间 。 
该 最 大 值 称 为 netcore.Somaxconn， 默 认 值 为 128 (包含 )。 

需要 记 住 的 是 backlog 的 数值 指出 了 一 个 侦 听 节点 中 排队 连接 的 最 大 数目 ， 所 有 这 些 连 
接 已 经 被 TCP 接受 并 等 待 应 用 程序 接受 。 无 论 对 系统 所 允许 的 已 经 建立 连接 的 最 大 数目 ， 
还 是 对 一 个 并 行 服务 器 所 能 同时 人 处理 的 客户 端 数 目 ，backlog 都 不 会 造成 影响 。 

3. 如 果 侦 听 节 点 的 队列 中 仍然 有 空间 分 配给 新 的 连接 ，TCP 模块 会 应 答 SYN 并 完成 连 
接 。 直 到 接收 到 三 次 握手 中 的 第 3 个 报 文 段 之 后 ， 与 侦 听 节点 相关 的 应 用 程序 才 会 知道 新 的 
连接 。 当 客户 端的 主动 打开 操作 顺利 完成 之 后 ， 客 户 端 可 能 会 认为 服务 器 已 经 准备 好 接收 数 
据 ， 然 而 服务 器 上 的 应 用 程序 此 时 可 能 还 未 收 到 关于 新 连接 的 通知 。 如 果 这 种 情况 发 生 ， 服 
务 器 的 TCP 模块 将 会 把 到 来 的 数据 存 人 队列 中 。 

4. 如 果 队 列 中 已 没有 足够 的 空间 分 配给 新 的 连接 ，TCP 将 会 延迟 对 SYN 做 出 响应 ， 从 
而 给 应 用 程序 一 个 跟 上 节奏 的 机 会 。Linux 在 这 一 方面 有 着 独特 的 行为 一 一 它 坚持 在 能 力 允 
许 的 范围 内 不 忽略 进入 的 连接 。 如 果 系 统 控 制 变 量 net.ipv4.tcp_abort on 已 被 设 定 ， 新 进入 
的 连接 会 被 重 置 报 文 段 重新 置 位 。 

在 队列 溢出 的 情况 下 ， 发 送 重 置 报 文 段 通常 是 不 可 取 的 ， 而 且 默 认 情 况 下 这 项 功能 也 不 
会 打开 。 客 户 端 会 尝试 与 服务 器 联系 ， 如 果 它 在 交换 SYN 期 间接 收 到 一 个 重 置 报 文 段 ， 那 
么 它 可 能 会 错误 地 认为 没有 服务 器 存在 (而 不 是 认为 有 一 台 服 务 器 存在 并 且 十 分 繁忙 )。 太 
忙 实际 上 是 一 种 “ 软 ” 的 或 者 暂时 的 错误 ， 而 不 是 一 种 硬性 的 错误 。 正 常情 况 下 ， 当 队列 已 
满 ， 应 用 程序 或 操作 系统 会 十 分 繁忙 ， 此 时 应 当 阻 止 应 用 程序 再 去 服务 那些 进入 的 连接 。 上 
述 状 况 可 能 会 在 短 时 间 内 得 到 改善 。 然 而 ， 如 果 一 台 服 务 器 的 TCP 使 用 重 置 报 文 段 进行 回 
复 ， 那 么 客户 端 将 会 放弃 主动 打开 的 操作 (这 与 服务 器 没有 启动 时 所 看 到 的 情况 是 类 似 的 )。 
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在 不 发 送 重 置 报 文 段 的 情况 下 ， 如 果 一 人 台 侦 听 的 服务 器 始终 无 法 抽出 时 间 来 接受 那些 已 经 被 
TCP 接受 却 超出 队列 保存 上 限 的 连接 ， 那么 根据 正常 的 TCP 机制， 客户 端的 主动 打开 操作 
将 会 最 终 超时 。 在 Linux 中 ， 连 接 的 客户 端 将 会 明显 地 放 缓 一 段 时 间 一 一 它们 既 不 会 超时 也 
不 会 重 置 。 

借助 我 们 的 sock 程序 ， 大 家 会 看 到 当 进 入 连接 队列 溢出 后 会 发 生 的 情况 。 我 们 利用 一 
个 新 的 选项 ( -O) 来 调用 程序 ， 并 且 告 诉 它 在 创建 完 侦 听 节点 后 暂停 ， 直 到 接收 到 任何 连接 
请 求 。 如 果 之 后 我 们 在 暂停 期 间 再 调用 多 个 客户 端 ， 服 务 器 的 接收 连接 队列 将 会 被 填 满 ， 因 
此 可 以 借助 tcpdump 检查 所 发 生 的 一 切 。 


Linux% sock -s -v -ql -030000 6666 


-ql 选项 将 侦 听 节点 的 backlog 数值 设置 为 1。-030000 选项 使 程序 在 接收 任何 客户 端 连 
接 之 前 先 休眠 30 000 # (基本 上 是 一 个 很 长 的 时 间 ， 大 约 8 小时)。 如 果 我 们 现在 不 断 地 尝 
试 连接 这 台 服 务 器 ， 最 早 的 4 个 连接 将 会 被 立即 完成 。 此 后 两 个 连接 需要 9 秒 才能 完成 。 其 
他 操作 系统 在 处 理 这 种 情况 时 会 有 明显 的 不 同 。 例 如 在 Solaris 8 和 FreeBSD 4.7 中 ， 两 个 连 
接 会 被 立即 处 理 而 第 3 个 连接 将 会 超时 ， 而 随后 的 连接 也 将 超时 。 

清单 13-10 显示 了 用 一 台 Linux 客户 端 连接 一 台 FreeBSD 服务 器 的 tcpdump 输出 结果 。 
FreeBSD 服务 器 上 运行 着 符合 上 文 参数 设 定 的 sock 程序 (在 TCP 连接 建立 时 ， 即 三 次 握手 
完成 时 ， 已 经 用 黑体 标记 了 客户 端的 端口 号 )。 


清单 13-10 FreeBSD 服务 器 立即 接收 两 个 连接 。 后 续 的 连接 不 能 接收 到 任何 响应 并 最 终 在 客户 端 超时 


1 21:28:47.399872 IP (tos 0x0, ttl 64, id 46646, offset 0, 
flags [DF], proto 6, length: 60) 
63.203.76.212.2461 > 169.229.62.97.6666: 
S [tcp sum ok] 2998137201:2998137201(0) win 5808 
<mss 1452,sackOK,timestamp 4102309703 0,nop,wscale 2> 


2 21:28:47.413770 IP (tos 0x0; ttl 47, id 6876, offset 0, 
flags [DF], proto 6, length: 60) 
169.229.62.97.6666 > 63.203.76.212.2461: 
S [tcp sum ok] 5583769:5583769(0) ack 2998137202 win 1460 
<mss 1412,nop,wscale 0,nop,nop,timestamp 219082980 4102309703> 


3 21:28:47.414058 IP (tos 0x0, ttl 64, id 46648, offset 0, 
flags [DF], proto 6, length: 52) 
63.203.76.212.2461 > 169.229.62.97.6666: 
。 [tcp sum ok] 1:1(0) ack 1 win 1452 
<nop,nop,timestamp 4102309717 219082980> 


4 21:28:47.423673 IP (tos 0x0, ttl 64, id 19651, offset 0, 
flags [DF], proto 6, length: 60) 
63.203.76.212.2462 > 169.229.62.97.6666: 
S [tcp sum ok] 2996964252:2996964252(0) win 5808 
<mss 1452,sackOK,timestamp 4102309727 0,nop,wscale 2> 


5 21:28:47.436897 IP (tos 0x0, ttl 47, id 26581, offset 0, 
flags [DF], proto 6, length: 60) 
169.229.62.97.6666 > 63.203.76.212.2462: 
S [tcp sum ok] 3761536245:3761536245(0) ack 2996964253 win 1460 
<mss 1412,nop,wscale 0,nop,nop,timestamp 219082983 4102309727> 


6 21:28:47.437186 IP (tos 0x0, ttl 64, id 19653, offset 0, 
flags [DF], proto 6, length: 52) 
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63.203.76.212.2462 > 169.229.62.97.6666: 
。 [tcp sum ok] 1:1(0) ack 1 win 1452 
<nop,nop,timestamp 4102309741 219082983> 


7 21:28:47.446198 IP (tos 0x0, ttl 64, id 24292, offset 0, 
flags [DF], proto 6, length: 60) 
63.203.76.212.2463 > 169.229.62.97.6666: 
S [tcp sum ok] 2991331729:2991331729(0) win 5808 
<mss 1452,sackOK,timestamp 4102309749 0,nop,wscale 2> 


8 21:28:50.445771 IP (tos 0x0, ttl 64, id 24294, offset 0, 
flags [DF], proto 6, length: 60) 
63.203.76.212.2463 > 169.229.62.97.6666: 
S [tcp sum ok] 2991331729:2991331729(0) win 5808 
<mss 1452,sackOK,timestamp 4102312750 0,nop,wscale 2> 


9 21:28:56.444900 IP (tos 0x0, ttl 64, id 24296, offset 0, 
flags [DF], proto 6, length: 60) 
63.203.76.212.2463 > 169.229.62.97.6666: 
S [tcp sum ok] 2991331729:2991331729(0) win 5808 
<mss 1452,sackOK,timestamp 4102318750 0,nop,wscale 2> 


10 21:29:08.443031 IP (tos 0x0, ttl 64, id 24298, offset 0, 
flags [DF], proto 6, length: 60) 6 
3.203.76.212.2463 > 169.229.62.97.6666: 
S [tcp sum ok] 2991331729:2991331729(0) win 5808 
<mss 1452,sackOK,timestamp 4102330750 0,nop,wscale 2> 


11 21:29:32.439406 IP (tos 0x0, ttl 64, id 24300, offset 0, 
flags [DF], proto 6, length: 60) 
63.203.76.212.2463 > 169.229.62.97.6666: 
S [tcp sum ok] 2991331729:2991331729(0) win 5808 
<mss 1452,sackOK,timestamp 4102354750 0,nop,wscale 2> 


12 21:30:20.432118 IP (tos 0x0, ttl 64, id 24302, offset 0, 
flags [DF], proto 6, length: 60) 
63.203.76.212.2463 > 169.229.62.97.6666: 
S [tcp sum ok] 2991331729:2991331729(0) win 5808 
<mss 1452,sackOK,timestamp 4102402750 0,nop,wscale 2> 


TCP 接受 的 第 1 个 客户 端 连接 请 求 来 自 端口 2461 ( 报 文 段 1 ~ 3 )。 第 2 个 客户 端的 连 
接 请 求 来 自 端 口 2462， 也 被 TCP 接受 ( 报 文 段 4 ~ 6 )。 服 务 器 的 应 用 程序 仍 处 于 睡眠 状态 ， 
不 能 够 接受 任何 连接 。 所 有 的 工作 都 是 由 操作 系统 的 TCP 模块 来 完成 的 。 由 于 三 次 握手 过 
程 均 已 完成 ， 这 两 个 客户 端 都 从 主动 打开 成 功 地 返回 。 

我 们 尝试 开启 第 3 个 客户 端 ， 它 的 SYN 报 文 段 如 清单 13-10 中 的 第 7 个 报 文 段 所 示 〈 端 
口号 2463 )， 但 由 于 侦 听 节点 的 队列 已 满 ， 服 务 器 端的 TCP 忽略 了 该 SYN 报 文 段 。 客 户 端 
根据 二 进 制 指数 退 避 机 制 重新 传输 了 它 的 SYN 报 文 段 ， 如 清单 13-10 中 的 第 8 ~ 12 个 报 文 
段 所 示 。 在 FreeBSD 与 Solaris 系统 中 ，TCP 会 在 队列 满 后 忽略 进入 的 SYN 报 文 段 。 

据 前 文 所 述 ， 如 果 侦 听 者 的 队列 有 足够 的 空间 ，TCP 将 会 接受 一 个 进入 的 连接 请 求 ( 即 
一 个 SYN 报 文 段 )， 而 不 会 让 应 用 程序 去 识别 这 条 连接 来 自 何方 ( 源 卫 地 址 与 源 端口 号 )。 
这 一 点 并 不 是 TCP 协议 所 要 求 的 ， 而 是 通用 的 实现 技术 ( 即 伯克利 套 接 字 的 工作 方式 )。 如 
果 采 用 替代 伯克利 套 接 字 API 的 方法 (例如 TLIXTI)， 能 够 为 应 用 程序 提供 一 种 了 解 何 时 有 
连接 到 达 的 方法 ， 并 允许 它们 选择 是 否 接受 到 达 的 连接 请 求 。TLI 只 是 在 理论 上 提供 这 种 能 
H, 但 未 能 完全 付 诸 实 践 ， 因 此 伯克利 套 接 字 能 够 更 有 效 地 为 TCP 接口 提供 支持 。 
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在 借助 伯克利 套 接 字 实 现 的 TCP 中 ， 当 应 用 程序 被 告知 一 条 连接 已 经 到 达 时 ，TCP 的 
三 次 握手 过 程 已 经 完成 。 上 述 行为 也 意味 着 一 个 TCP 服务 器 无 法 让 一 个 客户 端的 主动 打开 
操作 失败 。 当 一 个 新 的 客户 端 连接 传达 至 服务 器 应 用 程序 时 , TCP 的 三 次 握手 过 程 已 经 结束 ， 
而 且 客 户 端的 主动 打开 操作 已 经 成 功 完成 。 如 果 此 后 服务 器 查看 了 客户 端的 卫 地 址 与 端口 
号 ， 并 且 决 定 不 向 该 客户 端 提供 服务 ， 那 它 只 能 关闭 (发 送 一 个 FIN) 或 者 重 置 这 条 连接 (发 
送 一 个 RST)。 无 论处 于 上 述 哪 一 种 情况 ， 客 户 端 在 完成 主动 打开 操作 后 都 会 认为 一 切 正常 ， 
甚至 已 经 向 服务 器 发 出 了 请 求 。 因 此 ， 需 要 其 他 传输 层 协 议 来 为 应 用 程序 提供 区 分 连接 到 达 
与 接受 的 功能 ( 即 OSI 模型 的 传输 层 )， 但 不 是 TCP. 


13.8 与 TCP 连接 管理 相关 的 攻击 


SYN 泛 洪 是 一 种 TCP 拒绝 服务 攻击 ， 在 这 种 攻击 中 一 个 或 多 个 恶意 的 客户 端 产生 一 系 
列 TCP 连接 尝试 ( SYN 报 文 段 )， 并 将 它们 发 送 给 一 台 服 务 器 ， 它 们 通常 采用 “伪造 ”的 
(例如 ， 随 机 选择 ) W IP 地 址 。 服 务 器 会 为 每 一 条 连接 分 配 一 定数 量 的 连接 资源 。 由 于 连接 
尚未 完全 建立 ， 服 务 器 为 了 维护 大 量 的 半 打 开 连 接 会 在 耗 尽 自身 内 存 后 拒绝 为 后 续 的 合法 连 
接 请 求 服务 。 

因为 区 分 合法 的 连接 尝试 与 SYN 泛 洪 并 不 是 一 件 容 易 的 事情 ， 所 以 抵御 上 述 攻击 存在 
一 定 的 难度 。 一 种 针对 此 问题 的 机 制 被 称 作 SYN cookies[RFC4987]。SYN cookies 的 主要 
思想 是 ， 当 一 个 SYN 到 达 时 ， 这 条 连接 存储 的 大 部 分 信息 都 会 被 编码 并 保存 在 SYN + ACK 
报 文 段 的 序列 号 字段 。 采 用 SYN cookies 的 目标 主机 不 需要 为 进入 的 连接 请 求 分 配 任何 存储 
资源 一 一 只 有 当 SYN + ACK 报 文 段 本 身 被 确认 后 (并 且 已 返回 初始 序列 号 ) 才 会 分 配 真正 
的 内 存 。 在 这 种 情况 下 ， 所 有 重要 的 连接 参数 都 能 够 重新 获得 ， 同 时 连接 也 能 够 被 设置 为 
ESTABLISHED 状态 。 

在 执行 SYN cookies 过 程 中 需要 服务 器 仔细 地 选择 TCP 初始 序列 号 。 本 质 上 ， 服 务 器 必 
须 将 任何 必要 的 状态 编码 并 存 于 SYN + ACK 报 文 段 的 序列 号 字段 。 这 样 一 个 合法 的 客户 端 
会 将 其 值 作为 报 文 段 的 ACK 号 字段 返回 给 服务 器 。 很 多 方法 都 能 够 完成 这 项 工作 ， 下 面 将 
具体 介绍 Linux 系统 所 采用 的 技术 。 

服务 器 在 接收 到 一 个 SYN 后 会 采用 下 面 的 方法 设置 初始 序列 号 (保存 于 SYN + ACK 报 
文 段 ， 供 于 客户 端 ) 的 数值 : 首 5 位 是 1 模 32 的 结果 ， 其 中 1 是 一 个 32 位 的 计数 器 ， 每 隔 
64 秒 增 1 ; 接着 3 位 是 对 服务 器 最 大 段 大 小 (8 种 可 能 之 一 ) 的 编码 值 ; 剩余 的 24 位 保存 了 
4 元 组 与 1 值 的 散 列 值 。 该 数值 是 根据 服务 器 选 定 的 散 列 加 密 算法 计算 得 到 的 。 

在 采用 SYN cookies 方法 时 ， 服 务 器 总 是 以 一 个 SYN + ACK 报 文 段 作为 响应 (符合 任 
何 典 型 的 TCP 连接 建立 过 程 )。 在 接收 到 ACK 后 ， 如 果 根 据 其 中 的 1 值 可 以 计算 出 与 加 密 
的 散 列 值 相同 的 结果 ， 那 么 服务 器 才 会 为 该 SYN 重新 构建 队列 。 这 种 方法 至 少 有 两 个 缺陷 。 
首先 ， 由 于 需要 对 最 大 段 大 小 进行 编码 ， 这 种 方法 禁止 使 用 任意 大 小 的 报 文 段 。 其 次 ， 由 于 
计数 器 会 回 绕 ， 连 接 建立 过 程 会 因 周期 非常 长 (长 于 64 秒 ) 而 无 法 正常 工作 。 基 于 上 述 原 
因 ， 这 一 功能 并 未 作为 默认 设置 。 

另 一 种 攻击 方法 与 路 径 最 大 传输 单元 发 现 过 程 相 关 。 在 这 种 攻击 中 ， 攻 击 者 伪造 一 个 
ICMP PTB 消息 。 该 消息 包含 了 一 个 非常 小 的 MTU 值 (例如 ，68 字 节 )。 这 样 就 迫使 受害 的 
TCP 尝试 采用 非常 小 的 数据 包 来 填充 数据 ， 从 而 大 大 降低 了 它 的 性 能 。 最 强力 的 攻击 方法 
是 简单 地 禁用 主机 的 路 径 最 大 传输 单元 发 现 功能 。 当 接收 到 的 ICMP PTB 消息 的 下 一 跳 最 大 
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传输 单元 小 于 576 字 节 时 ， 其 他 选项 会 禁用 路 径 最 大 传输 单元 发 现 功能 。 前 文 曾 介绍 过 一 个 
Linux 系统 的 选项 。 该 选项 会 保持 最 小 的 数据 包 大 小 (为 了 TCP 的 大 数据 包 )。 如 果 该 选项 
被 固定 为 某 一 数值 ， 那 么 较 大 的 数据 包 则 不 能 将 IPv4 的 DF 位 置 位 。 这 种 方法 虽然 比 完全 禁 
用 路 径 最 大 传输 单元 发 现 功能 更 具 攻击 性 ， 但 也 与 其 十 分 类 似 。 

另 一 种 类 型 的 攻击 涉及 破坏 现 有 的 TCP 连接 ， 甚 至 可 能 将 其 劫持 〈hijacking)。 这 一 类 
攻击 通常 包含 的 第 一 步 是 使 两 个 之 前 正在 通信 的 TCP 节点 “失去 同步 。 这 样 它们 将 使 用 
不 年 确 的 序列 号 。 它 们 是 序列 号 攻击 的 典型 例子 [RFC1948]。 至 少 有 两 种 方法 能 实现 上 述 攻 
击 : 在 连接 建立 过 程 中 引发 不 正确 的 状态 传输 (类 似 于 13.6.4 小 节 介绍 的 时 间 等 待 错误 )， 在 
ESTABLISHED 状态 下 产生 额外 的 数据 。 一 旦 两 端 不 能 再 进行 通信 (但 却 认为 它们 间 拥 有 一 
个 打开 的 连接 )， 攻 击 者 就 能 够 在 连接 中 注入 新 的 流量 ， 而 且 这 些 注 和 的 流量 会 被 TCP 认为 
是 正确 的 。 

有 一 类 攻击 被 称 作 坎 骗 攻击 。 这 类 攻击 所 涉及 的 TCP 报 文 段 是 由 攻击 者 精心 定制 的 ， 
目的 在 于 破坏 或 改变 现 有 TCP 连接 的 行为 。 在 [RFC4953] 中 大 量 讨论 了 此 类 攻击 及 它们 的 
防治 技术 。 攻 击 者 可 以 生成 一 个 伪造 的 重 置 报 文 段 并 将 其 发 送 给 一 个 TCP 通信 节点 。 假 定 
与 连接 相关 的 4 元 组 以 及 校 验 和 都 是 正确 的 ， 序列 号 也 处 在 正确 的 范围 。 这 样 就 会 造成 连接 
的 任意 一 端 失败 。 随 着 互联 网 变 得 更 快 ， 为 了 维持 性 能 被 认为 “处 于 窗口 ”的 序列 号 范围 也 
在 不 断 地 扩大 (参见 第 15 章 )， 上 述 攻击 也 受到 越 来 越 多 的 关注 。 欺 骗 攻击 还 存在 于 其 他 类 
型 的 报 文 段 (SYN， 甚 至 ACK) 中 (有 时 会 与 泛 洪 攻 击 结 合 使 用 )， 引 发 大 量 的 问题 。 相 关 的 
防御 技术 包括 : 认证 每 一 个 报 文 段 (例如 ， 使 用 TCP-AO 选项 ) ; 要 求 重 置 报 文 段 拥 有 一 个 
特殊 的 序列 号 以 代替 处 于 某 一 范围 的 序列 号 ; 要 求 时 间 惟 选项 具有 特定 的 数值 ; 使 用 其 他 形 
式 的 cookie 文件 ， 让 非 关 键 的 数据 依赖 于 更 加 准确 的 连接 信息 或 一 个 秘密 数值 。 

欺骗 攻击 虽然 不 是 TCP 协议 的 一 部 分 ， 但 是 能 够 影响 TCP 的 运行 。 例 如 ，ICMP 协议 
能 够 被 用 于 修改 路 径 最 大 传输 单元 的 发 现行 为 。 它 也 能 够 被 用 于 指出 一 个 端口 号 或 一 台 主 机 
已 失效 ， 从 而 终止 一 个 TCP 连接 。[RFC5927] 介绍 了 大 量 的 此 类 攻击 ， 并 且 还 提出 了 一 些 防 
fA ICMP 欺骗 消息 、 提 高 鲁 棒 性 的 方法 。 这 些 建议 不 仅 局 限于 验证 ICMP 消息 ， 而 且 还 涉及 
其 可 能 包含 的 TCP 报 文 段 。 例 如 ， 包 含 的 报 文 段 应 该 拥有 正确 的 4 元 组 与 序列 号 。 


13.9 总结 


在 两 个 进程 使 用 TCP 协议 交换 数据 之 前 ， 它 们 必须 要 在 彼此 间 建 立 一 条 连接 。 当 数据 
传输 完毕 ， 它 们 将 终止 这 条 连接 。 本 章 详 细 介 绍 了 连接 是 如 何 借助 三 次 握手 过 程 建 立 的 ， 而 
且 又 是 如 何 利 用 4 个 报 文 段 终止 的 。 本 章 还 介绍 了 TCP 是 如 何 处 理 同时 打开 与 关闭 操作 的 ， 
以 及 如 何 管 理 各 个 选项 ， 其 中 包括 选择 性 确认 、 时 间 戳 、 最 大 段 大 小 、TCP 认证 以 及 用 户 超 
时 选项 。 

本 章 使 用 tcpdump 与 Wireshark 来 显示 TCP 协议 的 行为 以 及 TCP 头 部 字段 的 使 用 情况 。 
还 展示 了 连接 的 建立 过 程 是 如 何 超时 的 ， 重 置 报 文 段 是 如 何 发 送 与 解析 的 ， 以 及 TCP 是 如 
何 提供 半 打 开 与 半 关 闭 连接 的 。TCP 既 约束 了 在 一 个 主动 打开 操作 中 尝试 连接 的 次 数 ， 又 约 
束 了 在 一 次 被 动 打 开 操作 后 能 服务 的 尝试 连接 次 数 。 

TCP 状态 转换 图 对 理解 其 运行 非常 重要 。 本 章 依次 介绍 了 连接 的 建立 、 终 止 以 及 状态 迁 
移 的 各 个 步 又。 本 章 还 介绍 了 并 行 TCP 服务 器 设计 中 TCP 连接 建立 的 相关 工作 。 

一 条 TCP 连接 是 由 一 个 4 元 组 唯一 定义 的 ， 包 括 : 本 地 IP 地址， 本 地 端口 号 ， 外 部 IP 
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地 址 ， 外 部 端口 号 。 每 次 连接 终止 时 ， 通 信 一 端 必须 维护 这 些 相关 信息 。 根 据 本 章 的 介绍 ， 
TCP 的 TIME_WAIT 状态 负责 完成 这 些 工作 。 规 则 是 执行 主动 关闭 操作 的 一 端 进 入 TIME_ 
WAIT 状态 并 维持 两 倍 的 最 大 段 生 存 时 间 。 这 样 有 助 于 防止 TCP 处 理 同一 条 连接 中 旧 实 例 的 
报 文 段 。 当 新 的 连接 尝试 使 用 相同 的 4 元 组 时 ， 使 用 时 间 戳 选项 能 够 减少 等 待 时 间 ， 另 外 它 
还 有 助 于 探测 回 绕 的 序列 号 以 及 更 好 地 测量 往返 时 间 。 

TCP 在 资源 耗 尽 与 欺骗 等 攻击 面前 是 十 分 脆弱 的 ， 但 已 研究 出 一 些 方法 来 抵御 上 述 问 
题 。 此 外 ，TCP 还 会 受到 其 他 协议 的 影响 ， 比 如 ICMP。 通 过 仔细 地 分 析 ICMP 消息 所 返回 
的 原始 数据 报 可 以 加 强 对 ICMP 的 防御 。 最 后 ，TCP 可 以 与 其 他 协议 结合 使 用 ， 为 协议 栈 的 
其 他 层 提供 安全 支持 (例如 ，IPsec 与 TLS/SSL ， 参 见 第 18 章 )， 这 已 成 为 标准 的 做 法 。 
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14.1 引言 


到 目前 为 止 ， 我 们 并 没有 过 多 地 涉及 效率 与 性 能 ， 而 主要 关注 操作 的 正确 性 。 在 本 章 及 
HEP RA RP, FMAM TCP 执行 的 基本 任务 ， 还 关心 其 执行 效率 。 由 于 下 层 网 络 
Z CIP) 可 能 出 现 丢 失 、 重 复 或 失 序 包 的 情况 ，TCP 协议 提供 可 靠 数 据 传 输 服务 。 为 保证 数 
据 传输 的 正确 性 ，TCP 重 传 其 认为 已 丢失 的 包 。TCP 根据 接收 端 返 回 至 发 送 端的 一 系列 确认 
信息 来 判断 是 否 出 现 丢 包 。 当 数据 段 或 确认 信息 丢失 ，TCP 启动 重 传 操作 ， 重 传 尚未 确认 的 
数据 。TCP 拥有 两 套 独立 机 制 来 完成 重 传 ， 一 是 基于 时 间 ， 二 是 基于 确认 信息 的 构成 。 第 二 
种 方法 通常 比 第 一 种 更 高 效 。 

TCP 在 发 送 数据 时 会 设置 一 个 计时 器 ， 若 至 计时 器 超时 仍 未 收 到 数据 确认 信息 ， 则 会 引 
发 相应 的 超时 或 基于 计时 器 的 重 传 操作 ， 计 时 器 超时 称 为 重 传 超时 (RTO )。 另 一 种 方式 的 重 
传 称 为 快速 重 传 ， 通 常 发 生 在 没有 延 时 的 情况 下 。 若 TCP 累积 确认 无 法 返回 新 的 ACK， 或 
者 当 ACK 包含 的 选择 确认 信息 (SACK) 表明 出 现 失 序 报 文 段 时 ,快速 重 传 会 推断 出 现 丢 
包 。 通 常 来 说 ， 当 发 送 端 认 为 接收 端 可 能 出 现 数 据 丢 失 时 ， 需 要 决定 发 送 新 (未 发 送 过 的 ) 
数据 还 是 重 传 。 本 章 内 容 将 详细 讨论 TCP 怎样 判断 出 现 报 文 段 丢失 及 其 响应 操作 。 发 送 数 
据 量 问题 ， 即 由 丢 包 而 引发 的 拥塞 控制 机 制 ， 将 会 在 第 16 章 具体 介绍 。 这 里 ， 我 们 探讨 如 
何 根据 某 个 连接 的 RTT 来 设置 RTO， 基 于 计时 器 的 重 传 机 制 ， 以 及 TCP 快速 重 传 操作 。 另 
外 我 们 也 会 看 到 SACK 怎样 帮助 确定 丢失 数据 、 失 序 和 重复 IP Xt TCP 行为 的 影响 ， 以 及 
TCP 重 传 时 改变 包 大 小 的 方法 。 最 后 我 们 简要 讨论 一 些 可 能 导致 TCP 出 现 过 分 积极 或 被 动 
行为 的 攻击 方法 。 


14.2 简单 的 超时 与 重 传 举 例 


我 们 已 经 看 到 一 些 超时 和 重 传 的 例子 。( 1 ) 在 第 8 章 ICMP 目的 不 可 达 (端口 不 可 达 ) 
的 例子 中 ， 采 用 UDP 的 TFTP 客户 端 使 用 简单 ( 且 低 效 ) 的 超时 和 重 传 策略 : 设置 足够 大 的 
超时 间隔 ， 每 5 秒 进行 一 次 重 传 。( 2 ) 第 13 章 的 尝试 与 不 存在 的 主机 建立 连接 中 ,我们 看 
到 TCP 在 尝试 建立 连接 的 过 程 中 ， 在 每 次 重 传 时 采用 比 上 次 更 大 的 延 时 间隔 。( 3 ) 在 第 3 
章 的 以 太 网 冲突 中 ,我 们 也 可 以 看 到 相关 操作 。 上 述 机 制 都 是 由 计时 器 超时 引发 的 。 

我 们 首先 来 看 TCP 的 基于 计时 器 的 重 传 策略 。 先 建立 一 个 连接 ， 并 发 送 一 些 数据 验证 
连接 正常 。 然 后 断 开 连接 的 一 端 ， 这 时 再 发 送 一 些 数 据 ， 观 察 TCP 的 操作 。 这 里 我 们 采用 
Wireshark 来 跟踪 记录 连接 状况 (E 14-1). 

报 文 段 1、2、3 为 TCP 建立 连接 的 握手 过 程 。 连 接 建立 完成 后 ，Web 服务 器 处 于 等 
fF Web 请 求 的 状态 。 在 发 出 请 求 前 ， 我 们 先 断 开 服务 器 端 主机 的 连接 。 在 客户 端 输入 如 下 
命令 : 
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Linux% telnet 10.0.0.10 80 

Trying 10.0.0.10... 

Connected to 10.0.0.10. 

Escape character is '^]'. 

GET / HTTP/1.0 

Connection closed by foreign host. 


该 请 求 无 法 传输 至 服务 器 端 ， 因 此 它 会 在 客户 端的 TCP 队列 中 存储 一 段 时 间 。 此 时 采 
用 netstat 命令 读 取 客户 端 队列 状态 显示 为 非 空 : 


Active Internet connections (w/o servers) 
Proto Recv-Q Send-Q Local Address Foreign Address State 
tcp 0 18 10.0.0.9:1043 10.0.0.10:www ESTABLISHED 


可 以 看 到 发 送 队 列 中 有 18 字 节 的 数据 ， 等 待 被 传送 至 Web 服务 器 。 这 18 个 字 节 包含 了 
之 前 显示 的 请 求 命令 以 及 回 车 换行 。 其 他 的 输出 细节 (包括 地 址 和 状态 信息 ) 会 在 下 面 涉及 。 

报 文 段 4 为 客户 端 首 次 尝试 发 送 Web 请 求 ， 时 间 为 42.748s。0.206s 以 后 ， 在 42.954s 
发 送 了 第 二 次 请 求 。 接 着 在 43.374s， 即 0.420s 后 ， 再 次 尝试 请 求 。 后 续 的 请 求 ( 重 传 ) 时 刻 
分 别 为 44.215、45.895 以 及 49.255s， 间 隔 分 别 为 1.680 和 3.360s。 

每 次 重 传 间 隔 时 间 加 倍 称 为 二 进 制 指数 退 避 (binary exponential backoff)， 我 们 在 第 13 
BW) TCP 尝试 建立 连接 失败 时 提 到 过 ， 后 面 将 会 详细 讨论 。 自 首次 请 求 至 连接 完全 失效 ， 
总 时 间 为 15.5min。 随 后 ， 客 户 端 会 显示 如 下 错误 信息 : 


Connection closed by foreign host. 


逻辑 上 讲 ，TCP AAPA Ue Re On ti ERARE. EDL fa RFC[RFC1122] 
描述 了 这 两 个 阔 值 ， 在 第 13 章 中 也 提 到 过 。R1 表示 TCP 在 向 IP 层 传 递 “ 消 极 建议 ”( 如 重新 
评估 当前 的 正路 径 ) 前 ， 愿 意 尝试 重 传 的 次 数 (或 等 待 时 间 )。R2 (KF R1 ) 指示 TCP 应 放 
弃 当 前 连接 的 时 机 。R1 和 R2 应 分 别 至 少 设 为 三 次 重 传 和 100 秒 。 对 连接 的 建立 过 程 (发 送 
SYN 报 文 段 )， 阅 值 设置 与 数据 段 传输 有 所 区 别 ， 针 对 SYN 报 文 段 的 R2 应 最 少 设 为 3 分 钟 。 

Linux 系统 中 ， 对 一 般 数 据 段 来 说 ，R1 和 R2 的 值 可 以 通过 应 用 程序 ， 或 使 用 系统 配置 
变量 net.ipv4.tcp_retriesl 和 net.ipv4.tcp_retries2 设置 。 变 量 值 为 重 传 次 数 ， 而 不 是 以 时 间 为 
单位 。tcp_retries2 默认 值 为 15， 对 应 约 为 13 ~ 30 分 钟 ， 根 据 具体 连接 的 RTO 而 定 。net. 
ipv4.tcp_retriesl 默认 值 为 3。 对 于 SYN 报 文 段 ， 变 量 net.ipv4.tcp_syn_retries 和 net.ipv4. 
tcp_synack_retries 限定 重 传 次 数 ， 默 认 值 为 5 (4 180 秒 )。Windows 也 有 相应 控制 TCP 47 
为 的 变量 ,包括 R1 和 R2。 通 过 下 列 注册 表 项 可 以 修改 对 应 值 [WINREG]: 


HKLM\System\CurrentControlSet\Services\Tcpip\Parameters 
HKLM\System\CurrentControlSet\Services\Tcpip6\Parameters 


最 主要 的 值 为 TepMaxDataRetransmissions， 对 应 Linux 中 的 tcp_retries2 变量 ， 其 默认 
值 为 5。 至 此 我 们 看 到 ，TCP 需要 为 重 传 计时 器 设置 超时 值 ， 指 示 发 送 数据 后 等 待 ACK 的 
时 间 。 假 设 TCP 只 工作 在 静态 环境 中 ， 那 么 很 容易 为 超时 设置 一 个 合适 的 值 。 由 于 TCP 需 
要 适应 不 同 环境 进行 操作 ， 可 能 随 着 时 间 不 断 变化 ， 因 此 需 基 于 当前 状态 设 定 超时 值 。 例 
如 ， 若 某 个 网 络 连接 失败 ， 需 重新 建立 ，RTT 也 会 随 之 改变 (可 能 变化 很 大 )。 也 就 是 说 ， 
TCP 需要 动态 设置 RTO ( 重 传 超时 )。 下 面 我 们 讨论 这 一 问题 。 


14.3 设置 重 传 超时 
TCP 超时 和 重 传 的 基础 是 怎样 根据 给 定 连接 的 RTT E RTO, A TCP 先 于 RTT 开始 
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重 传 ， 可 能 会 在 网 络 中 引入 不 必要 的 重复 数据 。 反 之 ， 若 延迟 至 远大 于 RIT 的 间隔 发 送 重 
传 数据 ， 整 体 网 络 利用 率 〈 及 单个 连接 吞吐 量 ) 会 随 之 下 降 。 由 于 RIT 的 测量 较为 复杂 ， 根 
据 路 由 与 网 络 资源 的 不 同 ， 它 会 随时 间 而 改变 。TCP 必须 跟踪 这 些 变化 并 适时 做 出 调整 来 维 
持 好 的 性 能 。 

TCP 在 收 到 数据 后 会 返回 确认 信息 ， 因 此 可 在 该 信息 中 携带 一 个 字 节 的 数据 (采用 一 个 
特殊 序列 号 ) 来 测量 传输 该 确认 信息 所 需 的 时 间 。 每 个 此 类 的 测量 结果 称 为 RTT 样本 (RTT 
sample), TCP 首先 需要 根据 一 段 时 间 内 的 样本 值 建立 好 的 估计 值 。 第 二 步 是 怎样 基于 估计 
值 设 置 RTO. RTO 设置 得 当 是 保证 TCP 性 能 的 关键 。 

每 个 TCP 连接 的 RTT 均 独 立 估算 ， 并 且 重 传 计 时 器 会 对 任何 占用 序列 号 的 在 传 数据 
(包括 SYN A FIN 报 文 段 ) 计时 。 如 何 恰当 设置 计时 器 一 直 以 来 都 是 研究 的 热点 问题 ， 近 年 
来 也 取得 了 一 些 成 果 。 本 章节 将 探讨 计算 RTO 计算 方法 在 演进 历程 中 的 一 些 重要 里 程 碑 。 
首先 我 们 介绍 第 一 个 (“经典 ”) 方法 ， 详 见 [RFC0793]。 


14.3.1 BRAK 


最 初 的 TCP 规范 [RFC0793] 采用 如 下 公式 计算 得 到 平滑 的 RTT 估计 值 ( 称 为 SRTT): 
SRTT — a(SRTT) + (1 - a) RTT, 

这 里 ，SRTT 是 基于 现存 值 和 新 的 样本 值 RTT 得 到 更 新 结果 的 。 常 量 a 为 平滑 因子 ， 推 
荐 值 为 0.8 ~ 0.9。 每 当 得 到 新 的 样本 值 ，SRTT 就 会 做 出 相应 的 更 新 。 从 a 的 设 定 值 可 以 看 
到 ， 新 的 估计 值 有 80% ~ 90% KAMEI, 10% ~ 20% 来 自 新 测量 值 。 这 种 估算 方法 称 为 
指数 加 权 移 动 平均 (Exponentially Weighted Moving Average, EWMA) 或 低 通 过 滤器 (low- 
pass filter)。 该 方法 实现 起 来 较为 简单 ， 只 要 保存 SRTT 的 先前 值 即 可 得 到 新 的 估计 值 。 

考虑 到 SRTT 估计 器 得 到 的 估计 值 会 随 RTT 而 变化 ，[RFC0793] 推荐 根据 如 下 公式 设置 
RTO : 

RTO = min(ubound, max(Ibound,(SRTT))) 

这 里 的 5 为 时 延 离散 因子 ， 推 荐 值 为 1.3 ~ 2.0. ubound X RTO 的 上 边界 (可 设 定 建议 值 ， 
如 1 分钟)，lbound 为 RTO 的 下 边界 (可 设 定 建议 值 ， 如 1 秒 )。 我 们 称 该 方法 为 经 典 方法 ， 
它 使 得 RTO 的 值 设 置 为 1 秒 ， 或 约 两 倍 的 SRTT。 对 于 相对 稳定 的 RTT 分 布 来 说 ， 这 种 方法 
能 取得 不 错 的 性 能 。 然 而 ， 若 TCP 运行 于 RTT 变化 较 大 的 网 络 中 ， 则 无 法 获得 期 望 的 效果 。 


14.3.2 ”标准 方法 


在 [J88] 中 ，Jacobson 进一步 分 析 了 上 述 经 典 方法 ， 即 按照 [RFC0793] 设置 计时 器 无 法 
适应 RTT 的 大 规模 变动 (特别 是 ， 当 实际 的 RTT 远大 于 估计 值 时 ， 会 导致 不 必要 的 重 传 )。 
增 大 的 RTT 样本 值 表明 网 络 已 出 现 过 载 ， 此 时 不 必要 的 重 传 无 疑 会 进一步 加 重 网 络 负 担 。 

为 解决 上 述 问 题 ， 可 对 原 方法 做 出 改进 以 适应 RTT 变动 较 大 的 情况 。 可 通过 记录 RTT 
测量 值 的 变化 情况 以 及 均值 来 得 到 较为 准确 的 估计 值 。 基 于 均值 和 估计 值 的 变化 来 设置 
RTO， 将 比 仅 使 用 均值 的 常数 倍 来 计算 RTO 更 能 适应 RTT 变化 幅度 较 大 的 情况 。 

[J88] 中 的 图 5 和 图 6 显示 了 采用 [RFC0793] 与 同时 考虑 RTT 变化 值 的 方法 计算 RTO 
的 对 比 情况 。 如 果 我 们 将 TCP 得 到 的 RTT 测量 样本 值 考虑 为 一 个 统计 过 程 ， 那 么 同时 测量 
均值 和 方差 (或 标准 差 ) 能 更 好 地 估计 将 来 值 。 对 RTT 的 可 能 值 范围 做 出 好 的 预测 可 以 帮助 
TCP 设 定 一 个 能 适应 大 多 数 情况 的 RTO 值 。 
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正如 Jacobson 所 述 ， 平 均 偏 差 (mean deviation) 是 对 标准 差 的 一 种 好 的 逼近 ， 但 计算 起 
来 却 更 容易 、 更 快捷 。 计 算 标准 差 需要 对 方差 进行 平方 根 运算 ， 对 于 快速 TCP 实现 来 说 代 
价 较 大 。( 但 这 并 非 全 部 原因 ， 可 参见 [G04] 中 所 述 的 有 趣 的 “争论 ”历史 。) 因此 我 们 需要 
结合 平均 值 和 平均 偏差 来 进行 估算 。 可 对 每 个 RTT 测量 值 M 前 面 称 为 RTT,) 采用 如 下 算式 : 

srtt — (1 — g)(srtt) + (g)M 
rttvar — (1 — A)(rttvar) + (A)(|M — srtt|) 
RTO = srtt + 4(rttvar) 
这 里 ，srtt 值 替 代 了 之 前 的 SRTT， 且 rttvar 为 平均 偏差 的 EWMA ， 而 非 采 用 先前 的 有 
来 设置 RTO。 这 组 等 式 也 可 以 写成 男 一 种 形式 ， 对 计算 机 实现 来 说 操作 较为 方便 : 
Err = M — srtt 
srtt — srtt + g(Err) 
rttvar +— rttvar + A(|Err| ~ rttvar) 
RTO = srtt + 4(rttvar) 

如 前 所 述 ，srtt 为 均值 的 EWMA rttvar 为 绝对 误差 |Err| AY EWMA. Err 为 测量 值 M 与 
当前 RTT 估计 值 srtt 之 间 的 偏差 。srtt 与 rttvar 均 用 于 计算 RTO 且 随 时 间 变 化 。 增 量 g 为 新 
RTT 样本 M h srtt 估计 值 的 权重 ， 取 为 /8。 增 量 h 为 新 平均 偏差 样本 (新 样本 M 与 当前 平 
均值 srtt 之 间 的 绝对 误差 ) 占 偏差 估计 值 rttvar 的 权重 ， 取 为 /4。 当 RTT 变化 时 ， 偏 差 的 增 
量 越 大 ,RTO 增长 越 快 。.g 和 hh 的 值 取 为 2 的 ( 负 的 ) 多 少 次 方 ， 使 得 整个 计算 过 程 较为 简单 ， 
对 计算 机 来 说 只 要 采用 定点 整 型 数 的 移 位 和 加 法 操作 即 可 ， 而 无 须 复 杂 的 乘除 法 运算 。 


注意 [J88] 采用 2*rttvar 来 计算 RTO， 但 在 之 后 的 研究 中 ，[J90] 更 改 为 4*rttvar， 
BSD Net/1 的 实现 中 使 用 该 值 且 最 终 形成 了 标准 [RFC6298]。 


比较 经 典 方法 与 Jacobson 的 计算 方法 ,平均 RTT 的 计算 过 程 类 似 (a 等 于 1 减 增 量 g)， 
只 是 采用 的 增 量 不 同 。 男 外 ，Jacobson 同时 基于 平滑 RTT 和 平滑 偏差 计算 RTO， 而 经 典 方 
法 简单 采用 平滑 RTT 的 倍数 。 这 是 迄今 为 止 许多 TCP 实现 计算 RTO 的 方法 ， 并 且 由 于 其 作 
为 [RFC6298] 的 基础 ， 我 们 称 其 为 标准 方法 ， 尽 管 在 [RFC6298] 中 有 一 些 改进 。 下 面 我 们 就 
讨论 这 个 问题 。 
14.3.2.1 时 钟 粒度 与 RTO 边界 

在 测量 RIT 的 过 程 中 ，TCP 时 钟 始终 处 于 运转 状态 。 对 初始 序列 号 来 说 ， 实 际 TCP 连 
接 的 时 钟 并 非 从 零 开 始 计时 ， 也 没有 绝对 精确 的 精度 。 相 反 地 ，TCP 时 钟 通常 为 某 个 变量 ， 
该 变量 值 随 着 系统 时 钟 而 做 出 更 新 ， 但 并 非 一 对 一 地 同步 更 新 。TCP 时 钟 一 个 “滴答 ”的 时 
间 长 度 称 为 粒度 。 通 常 ， 该 值 相对 较 大 ( 约 500ms)， 但 近期 实现 的 时 钟 使 用 更 细 的 粒度 (如 
Linux 采用 1ms)。 

粒度 会 影响 RTT 的 测量 以 及 RTO 的 设置 。 在 [RFC6298] 中 ， 粒 度 用 于 优化 RTO 的 更 
新 情况 ， 并 给 RTO 设置 了 一 个 下 界 。 计 算 公 式 如 下 : 

RTO = max(srtt + max(G, 4(rttvar)), 1000) 

这 里 的 G 为 计时 器 粒度 ，1000ms 为 整个 RTO 的 下 界 值 ([RFC6298] 的 规则 (2.4) 建议 值 )。 
因此 ，RTO 至 少 为 1s， 同 时 提供 了 可 选 上 界 值 ， 假 设 为 60s。 


14.3.2.2 ”初始 值 
我 们 已 经 看 到 估计 器 怎样 随时 间 进 行 更 新 ， 但 同时 也 需要 了 解 怎样 设置 初始 值 。 在 首 个 
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SYN 交换 前 ，TCP 无 法 设置 RTO 初始 值 。 除 非 系 统 提供 (有些 系 统 在 转发 表 中 缓存 了 该 信 
息 ， 见 14.9 节 )， 否 则 也 无 法 设置 估计 器 的 初始 值 。 根 据 [RFC6298], RTO 的 初始 值 为 1s， 
而 初始 SYN 报 文 段 采用 的 超时 间隔 为 3s。 当 接收 到 首 个 RTT 测量 结果 M， 估 计 器 按 如 下 方 
法 进行 初始 化 : 

srtt — M 
rttvar «— M/2 

8 我们 已 经 了 解 了 估计 器 的 初始 化 和 运行 过 程 。RTO 的 设置 看 似 取决 于 得 到 的 RTT 采样 

值 ， 下 面 我 们 将 看 到 一 些 例外 情况 。 


14.3.2.3 ” 重 传 二 义 性 与 Karn 算法 

在 测量 RTT 样本 的 过 程 中 若 出 现 重 传 ， 就 可 能 导致 某 些 问题 。 假 设 一 个 包 的 传输 出 现 
超时 ， 该 数据 包 会 被 重 传 ， 接 着 收 到 一 个 确认 信息 。 那 么 该 信息 是 对 第 一 次 还 是 第 二 次 传输 
的 确认 就 存在 二 义 性 。 这 就 是 重 传 二 义 性 的 一 个 例子 。 

[KP87] 指出 ， 当 出 现 超 时 重 传 时 ， 接 收 到 重 传 数据 的 确认 信息 时 不 能 更 新 RTT 估计 值 。 
这 是 Karn 算法 的 “第 一 部 分 ”。 它 通过 排除 二 义 性 数据 来 解决 RTT 估算 中 出 现 的 二 义 性 问 
题 。[RFC6298] 做 出 了 相关 要 求 。 

假如 我 们 在 设置 RTO 过 程 中 简单 地 将 重 传 问题 完全 忽略 ， 就 可 能 将 网 络 提 供 的 一 些 
有 用 信息 也 同时 忽略 ( 即 网 络 中 可 能 出 现 某 些 因素 影响 传输 速度 )。 这 种 情况 下 ， 在 网 络 不 
再 出 现 丢 包 前 降低 重 传 率 有 助 于 减轻 网 络 负担 。 这 也 是 下 面 指数 退 避 行为 的 理论 基础 ， 见 
14-1, 

TCP 在 计算 RTO 过 程 中 采用 一 个 退 避 系数 (backoff factor)， 每 当 重 传 计 时 器 出 现 超时 ， 
退 避 系数 加 倍 ， 该 过 程 一 直 持 续 至 接收 到 非 重 传 数 据 。 此 时 ， 退 避 系 数 重新 设 为 1 ( 即 二 进 
制 指数 退 避 取消 )， 重 传 计时 器 返回 正常 值 。 对 重 传 过 程 退 避 系 数 加 倍 ， 这 是 Karn 算法 的 
“第 二 部 分 o EEE TCP 超时 ， 同 时 会 引发 拥塞 控制 机 制 ， 以 此 改变 发 送 速率 (拥塞 控制 
将 在 第 16 章 详细 讨论 )。 因 此 ，Karn 算法 实际 上 由 两 部 分 组 成 ， 如 [KP89] 所 述 : 


当 接 收 到 重复 传输 ( 即 至 少 重 传 一 次 ) 数据 的 确认 信息 时 ， 不 进行 该 数据 包 的 
RTT 测量 ， 可 以 避免 重 传 二 义 性 问题 。 另 外 ， 对 该 数据 之 后 的 包 采 取 退 避 策 略 。 仅 
当 接 收 到 未 经 重 传 的 数据 时 ， 该 SRTT 才 用 于 计算 RTO。 


Karn 算法 一 直 作 为 TCP 实现 中 的 必要 方法 (A [RFC1122] €), 然而 也 有 例外 情况 。 在 
使 用 TCP 时 间 戳 选项 ( 见 第 13 章 ) 的 情况 下 ， 可 以 避免 二 义 性 问题 ， 因 此 Karn 算法 的 第 一 
部 分 不 适用 。 


14.3.2.4” 带 时 间 截 选项 的 RTT 测量 

TCP 时 间 惟 选项 (TSOPT) 作为 PAWS 算法 的 基础 (第 13 章 中 已 经 提 过 )， 还 可 用 作 
RTT 测量 (RTTM) [RFC1323]。TSOPT 的 基本 格式 第 13 章 中 已 经 介绍 过 。 它 允许 发 送 者 在 
返回 的 对 应 确认 信息 中 携带 一 个 32 比特 的 数 。 

时 间 戳 值 (TSV) 携带 于 初始 SYN 的 TSOPT 中 ， 并 在 SYN + ACK 的 TSOPT 的 TSER 
部 分 返回 ， 以 此 设 定 srtt、rttvar 与 RTO 的 初始 值 。 由 于 初始 SYN 可 看 作 数 据 ( 即 同样 采取 
丢失 重 传 策略 且 占 用 一 个 序列 号 )， 应 测量 其 RTT 值 。 其 他 报 文 段 中 也 包含 TSOPT， 因 此 可 
结合 其 他 样本 值 估算 该 连接 的 RTT。 该 过 程 看 似 简 单 但 实际 存在 很 多 不 确定 因素 ， 因 为 TCP 
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并 非 对 其 接收 到 的 每 个 报 文 段 都 返回 ACK。 例 如 ， 当 传输 大 批量 数据 时 ，TCP 通常 采取 每 
两 个 报 文 段 返回 一 个 ACK 的 方法 ( 见 第 15 章 )。 男 外 ， 当 数据 出 现 丢失 、 失 序 或 重 传 成 功 
时 ，TCP 的 累积 确认 机 制 表 明报 文 段 与 其 ACK 之 间 并 非 严 格 的 一 一 对 应 关系 。 为 解决 这 些 
问题 ， 使 用 时 间 惟 选项 的 TCP (大 部 分 的 Linux 和 Windows 版 本 都 包含 ) 采用 如 下 算法 来 测 
量 RTT 样本 值 : 

1. TCP 发 送 端 在 其 发 送 的 每 个 报 文 段 的 TSOPT 的 TSV 部 分 携带 一 个 32 比特 的 时 间 惟 
值 。 该 值 包含 数据 发 送 时 刻 的 TCP 时 钟 值 。 

2. 接收 端 记录 接收 到 的 TSV 值 (名 为 TsRecent 的 变量 ) 并 在 对 应 的 ACK 中 返回 ， 并 且 
记录 其 上 一 个 发 送 的 ACK 号 (名 为 LastACK 的 变量 )。 回 忆 一 下 ，ACK 号 代表 接收 端 ( 即 
ACK 的 发 送 方 ) 期 望 接收 的 下 一 个 有 序 序号 。 

3. 当 一 个 新 的 报 文 段 到 达 时 ， 如 果 其 序列 号 与 LastACK 的 值 吻 合 〈 即 为 下 一 个 期 望 接收 
的 报 文 段 )， 则 将 其 TSV [EFA TsRecent。 

4. 接收 端 发 送 的 任何 一 个 ACK #844 TSOPT, TsRecent 变量 包含 的 时 间 戳 值 被 写 人 其 
TSER 部 分 。 

5. 发 送 端 接收 到 ACK 后 ,将 当前 TCP 时 钟 减 去 TSER 值 ， 得 到 的 差 即 为 新 的 RTT FE 
本 估计 值 。 

FreeBSD, Linux 以 及 近期 的 Windows 版 本 都 默认 启用 时 间 惟 选项 。 在 Linux 中 ， 系 
统 配置 变量 net.ipv4.tcp_timestamps 控制 是 否 使 用 该 选项 (0 代表 禁用 ，1 代表 使 用 )。 在 
Windows 中 ， 通 过 前 面 提 到 的 注册 表 区 域 的 Tep13230pts 值 来 控制 其 使 用 。 若 值 为 0， 时 间 
BEA; 若 值 为 2， 则 启用 。 该 键 值 没有 设 默认 值 ( 它 并 非 默认 存在 于 注册 表 中 )。 但 车 在 
连接 初始 化 过 程 中 ，TCP 通信 的 另 一 方 使 用 时 间 惟 ， 则 默认 启用 。 


14.3.3 Linux 采用 的 方法 


Linux 的 RTT 测量 过 程 与 标准 方法 有 所 差别 。 它 采用 的 时 钟 粒度 为 Ims， 与 其 他 实现 方 
法 相 比 ， 其 粒度 更 细 ， TSOPT 也 是 如 此 。 采 用 更 频繁 的 RIT 测量 与 更 细 的 时 钟 粒 度 ，RTT 测 
量 也 更 为 精确 ， 但 也 易于 导致 rttvar 值 随时 间 减 为 最 小 [LS00]。 这 是 由 于 当 累 积 了 大 量 的 平 
均 偏 差 样 本 时 ， 这 些 样本 之 间 易 产生 相互 抵消 的 效果 。 这 是 其 RTO 设置 区 别 于 标准 方法 的 一 
个 原因 。 另 外 ， 当 某 个 RTT 样本 显著 低 于 现 有 的 RTT 估计 值 srtt 时 ， 标 准 方法 会 增 大 rttvar。 

为 更 好 地 理解 第 二 个 问题 ， 首 先 回顾 一 下 RTO 通常 设置 为 srtt+ 4 (rttvar)。 因 此 ， 无 论 
最 大 RTT 样本 值 是 大 于 还 是 小 于 srtt，rttvar 的 任何 大 的 变动 都 会 导致 RTO 增 大 。 这 与 直觉 
相反 一 一 若 实 际 RTT KRR, RTO 并 不 会 因此 增 大 。Linux 通过 减 小 RTT 样本 值 大 幅 下 
降 对 rttvar 的 影响 来 解决 这 一 问题 。 下 面 我 们 详细 讨论 Linux 设置 RTO 的 方法 ,该 方法 可 以 
同时 解决 上 述 两 个 问题 。 

与 标准 方法 一 样 ，Linux 也 记录 变量 srtt 与 rttvar 值 ， 但 同时 还 记录 两 个 新 的 变量 ， 即 
mdev 和 mdev_max. mdev 为 采用 标准 方法 的 瞬时 平均 偏差 估计 值 ， 即 前 面 方法 的 rttvar。 
mdev_max 则 记录 在 测量 RTT 样本 过 程 中 的 最 大 mdev， 其 最 小 值 不 小 于 50ms。 男 外 ，rttvar 
需 定期 更 新 以 保证 其 不 小 于 mdev_max。 因 此 RTO 不 会 小 于 200ms。 


注意 最 小 RTO 可 更 改 ， 这 可 通过 在 重新 编译 加 载 内 核 前 改变 内 核 配置 常量 TCP_ 
RTO MIN 的 值 来 实现 。 有些 Linux 版 本 也 允许 通过 ip route 命令 改变 该 值 。 若 
在 数据 中 心 网 络 中 使 用 TCP， 这些 环境 中 RTT 可 能 只 有 几 微 秒 。 当 本 地 交换 出 
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现 丢 包 时 ， 若 RTO 的 最 小 值 为 200ms， 就 会 严重 影响 网 络 性 能 。 这 就 是 所 谓 的 
TCP“ 添 头 ” 问 题 。 针 对 这 一 问题 提出 了 很 多 解决 方法 ， 包 括 调 整 TCP 时 钟 粒度 ; 


或 将 最 小 RTO 设 为 几 微 秒 [V09]， 但 不 推荐 在 全 球 因特网 中 使 用 该 方法 。 


Linux 根据 mdev_max 的 值 来 更 新 rttvar。RTO 总 是 等 于 srtt 与 4(rttvar) 之 和 ， 以 此 确保 
RTO 不 超过 TCP_RTO_MAX (默认 值 为 120s)。 详 见 [SK02]。 图 14-2 详细 描述 了 这 一 过 程 ， 


从 中 也 可 看 到 时 间 蕉 选项 是 怎样 工作 的 。 


RTO 设 置 srtt 
“216° 16 
226 26 
229 29 
241 41 
249 49 


图 14-2 TCP 时 间 戳 选项 携带 了 发 送 端 TCP 时 钟 的 副本 。 接 着 ACK 将 该 值 返回 至 接收 端 ， 通 过 计算 
两 者 之 差 〈 当 前 时 钟 减 去 返回 的 时 间 惟 ) 来 更 新 其 srtt 与 rttvar 估计 值 。 为 看 得 更 清晰 ， 图 中 
HHR SBS ay aA. AS Linux 系统 中 ，rttvar 值 限 制 为 至 少 50ms，RTO 下 界 值 为 200ms 


从 图 14-2 中 可 以 看 到 ， 该 TCP 连接 采用 时 间 惟 选项 。 发 送 端 为 Linux 2.6 系统 ， 接 收 
端 为 FreeBSD 5.4 系统 。 为 简单 起 见 ， 序 列 号 和 时 间 戳 取 相 对 值 ， 且 只 显示 了 发 送 端的 时 间 
戳 。 为 使 数据 简单 可 读 ， 本 图 并 未 严格 按照 时 间 尺 度 。 基 于 本 例 中 得 到 的 初始 RTT 测量 值 ， 
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Linux 采用 如 下 算法 进行 更 新 : 
e srtt = 16ms 


e mdev = (16/2)ms = 8ms 
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(为 简明 起 匈 ， 图 中 多 余 
的 ACK 已 去 除 ) 
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è rttvar = mdev max = max(mdev, TCP RTO MIN)= max(8, 50) = 50ms 

e RTO = srtt + 4(rttvar) = 16 + 4(50) = 216ms 

在 初始 SYN 交换 后 ， 发 送 端 对 接收 端的 SYN 返回 一 个 ACK， 接 收 端 则 进行 了 一 次 相 
应 的 窗口 更 新 。 由 于 这 些 包 都 未 包含 实际 数据 (SYN 或 FIN 位 字段 ， 但 都 被 算 作 数据 )， 并 
没有 记录 对 应 的 时 间 ， 且 发 送 端 收 到 窗口 更 新 时 也 没有 进行 RTT 更 新 。TCP 对 不 含 数据 的 
报 文 段 不 提供 可 靠 传 输 ， 意 味 着 若 出 现 丢 包 不 会 重 传 ， 因 此 无 须 设 定 重 传 计时 器 。 


注意 ”值得 注意 的 是 ，TCP 选项 本 身 并 不 进行 重 传 或 可 靠 传输 。 仅 当 数 据 段 (包括 
SYN 和 FIN 报 文 段 ) 中 明确 设 定 ， 才 会 丢失 重 传 ， 但 也 仅 作为 副作用 。 


当 应 用 首次 执行 写 操 作 ， 发 送 端 TCP 发 送 两 个 报 文 段 ， 每 个 报 文 段 包 含 一 个 值 为 127 
的 TSV。 由 于 两 次 发 送 间 隔 小 于 Ims (发 送 端 TCP 时 钟 粒 度 )， 因 此 这 两 个 值 相等 。 当 发 送 
端 以 这 种 方式 接连 发 送 多 个 报 文 段 时 ， 很 容易 看 到 时 钟 没有 前 进 或 小 幅 前 进 的 情况 。 

接收 端 变量 LastACK 记录 其 上 一 个 发 送 ACK 的 序列 号 。 在 本 例 中 ， 上 一 个 发 送 的 
ACK 为 连接 建立 阶段 的 SYN + ACK 包 ， 因 此 LastACK 从 1 开始。 当 首 个 全 长 (full-size) 
报 文 段 到 达 ， 其 序列 号 与 LastACK 吻合 ， 则 将 TsRecent 变量 更 新 为 新 接收 分 组 的 TSV， 即 
127。 第 二 个 报 文 段 的 到 达 并 没有 更 新 TsRecent， 因 为 其 序列 号 字段 与 LastACK 中 的 值 并 不 
匹配 。 接 收 端 返 回 对 应 分 组 的 ACK 时 ， 需 在 其 TSER 部 分 包含 TsRecent， 同 时 接收 端 还 要 
更 新 LastACK 变量 的 ACK 号 为 2801。 

当 该 ACK 到 达 时 ，TCP 就 可 以 进行 第 二 个 RIT 样本 的 测量 。 首 先 获得 当前 TCP 时 钟 
值 ， 减 去 已 接收 ACK 包含 的 TSER， 即 样本 值 m = 223 - 127 = 96。 根 据 该 测量 值 ，Linux 
TCP 按 如 下 步骤 更 新 连接 变量 : 

e mdev = mdev (3/4) + |m — srtt|(1/4) = 8(3/4) + |80|(1/4) = 26ms 
mdev_max = max(mdev_max, mdev) = max(50, 26) = 50ms 
srtt = srtt (7/8) + m(1/8) = 16(7/8) + 96(1/8) = 14 + 12 = 26ms 
rttvar = mdev_max = 50ms 
RTO = srtt + 4(rttvar) = 26 + 4(50) = 226ms 

如 前 所 述 ，Linux TCP 针对 经 典 RTT 估算 方法 做 出 了 几 处 改进 。 在 经 典 算法 提出 之 时 ， 
TCP 时 钟 粒度 普遍 为 S00ms， 且 时 间 惟 选项 也 没有 得 到 广泛 应 用 。 通 常 ， 每 个 窗口 只 测量 一 
4 RIT 样本 ， 并 据 此 进行 估计 器 的 更 新 。 在 不 使 用 时 间 戳 的 情况 下 ， 依 然 采 用 这 种 方法 。 

若 每 个 窗口 只 测量 一 个 RTT 样本 ，rttvar 相对 变动 则 较 小 。 利 用 时 间 惟 和 对 每 个 包 的 测 
量 ， 就 可 以 得 到 更 多 的 样本 值 。 因 为 对 同一 个 窗口 的 数据 而 言 ， 每 个 包 对 应 的 RIT 样本 通 
常 存在 一 定 的 差异 ， 短 时 间 内 得 到 的 大 量 样本 值 (如 窗口 较 大 ) 可 能 导致 平均 偏差 变 小 FR 
近 0， 基 于 大 数 定律 [F68])。 为 解决 上 述 问 题 ，Linux 维护 瞬时 平均 偏差 估计 值 mdev， 但 设 
E RTO 时 则 基于 rttvar (在 一 个 窗口 数据 期 间 记 录 的 最 大 mdev， 且 最 小 值 为 SO0ms)。 仅 当 进 
入 下 一 个 窗口 时 ，rttvar 才 可 能 减 小 。 

标准 方法 中 rttvar 所 占 权 重 较 大 (系数 为 4)， 因 此 即使 当 RTT 减 小 时 ， 也 会 导致 RTO 
增长 。 在 时 钟 粒度 较 粗 时 (如 500ms)， 这 种 情况 不 会 有 很 大 影响 ,因为 RTO 可 用 值 很 少 。 
然而 ， 若 时 钟 粒度 较 细 ， 如 Linux 的 lms， 就 可 能 出 现 问题 。 针 对 RTT 减 小 的 情况 ， 铬 新 样 
本 值 小 于 RTT 估计 范围 的 下 界 (srtt - mdev)， 则 减 小 新 样本 的 权重 。 完 整 的 关系 式 如 下 : 


if (m < (srtt ~ mdev)) 
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mdev = (31/32) * mdev + (1/32) * |srtt — m| 
else 
mdev = (3/4) * mdev + (1/4) * |srtt - m| 
该 条 件 语句 只 在 新 RTT 样本 值 小 于 期 望 的 RTT 测量 范围 下 界 的 前 提 下 成 立 。 若 该 条 件 
成 立 ， 则 表明 该 连接 的 RTT 正 处 于 急剧 减 小 的 状态 。 为 避免 该 情况 下 的 mdev 增 大 (以 及 由 
ae rttvar 和 RTO 增 大 )， 新 的 平均 偏差 样本 |srtt - m|， 将 其 权重 减 小 为 原来 的 1/8。 整 
SEG, BART GRE RTT 减 小 导致 的 RTO 增 大 问题 。 对 该 问题 的 进一步 讨论 ， 请 参见 
[LS00] A" anat 在 [RKS07] 中 ， 作 者 在 280 万 个 TCP 流 的 多 个 系统 上 运行 了 RTT 估算 算 
法 ， 运 行 结果 表明 Linux 估计 器 性 能 最 优 ， 这 很 大 程度 上 是 由 于 其 相对 快速 收 剑 ， 但 也 可 能 
是 减 小 了 RTT 变动 对 RTO 的 影响 。 
现在 回 到 图 14-2， 当 接收 端 生 成 ACK 7001 时 ， 我 们 看 到 其 TSER 包含 了 一 个 TSV 副 
本 ， 该 值 并 非 来 自 最 新 到 达 的 报 文 自 ， 而 是 最 早 的 一 个 未 经 确认 的 报 文 段 。 当 该 ACK 返回 
至 发 送 端 ， 通 过 计算 得 到 的 RTT 样本 是 基于 第 一 个 报 文 段 ， 而 非 第 二 个 。 这 说 明了 时 间 截 
算法 在 延 时 或 不 稳定 的 ACK 下 的 工作 情况 。 若 计算 最 早 的 包 对 应 的 RTT， 得 到 的 样本 值 为 
发 送 端 期 望 收 到 ACK 需 经 过 的 时 间 ， 而 非 实 际 网 络 RTT。 这 点 很 重要 ， 因 为 发 送 端 需 根 据 
其 ACK 接收 率 来 设置 RTO ， 接 收 率 可 能 小 于 包 的 发 送 率 。 


14.3.4 RIT 估计 器 行为 


我 们 已 经 看 到 ， 设 置 RTO 与 估算 RTT 有 大 量 的 设计 和 改进 方法 。 图 14-3 显示 了 其 中 主 
要 的 估算 方法 ， 即 基于 标准 方法 和 Linux 算法 得 到 的 综合 数据 集 。 图 中 [RFC6298] 推荐 的 标 
准 算 法 最 小 RTO 值 ls 已 被 移 除 。 目 前 的 大 多 数 TCP 实现 方法 都 不 再 采用 该 值 [RKS07]。 
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14-3 ”对 于 200 个 伪 随 机 的 样本 点 采用 Linux 方法 和 标准 方法 来 设置 RTO 和 估算 RTT. Ail 100 个 点 
是 基于 分 布 N200,50)， 后 100 个 则 基于 N(50,50)， 且 对 负 值 进行 了 符号 变换 。Linux 将 最 小 
RTO 设 为 200ms， 而 标准 方法 在 样本 120 之 后 则 变 得 更 为 密集 。Linux 避免 RTO 设置 过 小 就 
是 防止 这 种 情况 的 发 生 。 标 准 方法 在 样本 78 和 191 出 现 潜在 问题 
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图 中 显示 了 两 个 在 高 斯 概率 分 布 N(200,50) 和 N(50,50) 上 的 200 个 值 对 应 的 时 间 序 列 
图 。 第 一 个 分 布 对 应 前 100 个 点 ， 第 二 个 对 应 后 100 个 点 。 负 的 样本 值 通过 符号 变换 转化 为 
正 值 (只 针对 第 二 个 分 布 )。 每 个 加 号 (+) 表示 一 个 具体 的 样本 值 。 很 明显 可 以 看 到 ， 在 第 
100 个 样本 值 之 后 出 现 了 巨 幅 下 降 ， 另 外 Linux 方法 在 第 100 个 样本 值 之 后 RTO 立即 减 小 ， 
而 标准 方法 则 在 120 个 样本 值 后 才 开 始 减 小 。 

观察 Linux 的 rttvar 线 ， 可 以 看 到 其 基本 保持 恒定 。 这 是 由 于 mdev_max 的 最 小 值 为 
50ms (因此 rttvar 也 是 如 此 )， 使 得 Linux 的 RTO 始终 保持 在 200ms 以 上 ， 并 且 避 免 了 所 有 
不 必要 的 重 传 (尽管 可 能 由 于 RTO 较 大 ， 计 时 器 未 超时 ， 导 致 丢 包 时 性 能 降低 )。 标 准 方法 
在 样本 78 和 191 可 能 出 现 潜在 问题 ， 即 伪 重 传 的 发 生 。 这 个 问题 留 到 后 面 再 讨论 。 


14.3.5 ”RTTM 对 丢 包 和 失 序 的 鲁 棒 性 


当 没 有 丢 包 情况 时 ,不论 接收 端 是 否 延 迟 发 送 ACK, TSOPT 可 以 很 好 地 工作 。 该 算法 
在 以 下 几 种 情况 下 都 能 正确 运行 : 
o 失 序 报 文 段 : 当 接收 端 收 到 失 序 报 文 段 时 ， 通 常 是 由 于 在 此 之 前 出 现 了 丢 包 ， 应 当 立 
661 即 返 回 ACK 以 启动 快速 重 传 算法 ( 见 14.5 节 )。 该 ACK 的 TSER 部 分 包含 的 TSV 
662 值 为 接收 端 收 到 最 近 的 有 序 报 文 段 的 时 刻 ( 即 最 新 的 使 窗口 前 进 的 报 文 段 ， 通 常 不 会 
是 失 序 报 文 段 )。 这 会 使 得 发 送 端 RTT 样本 增 大 ， 由 此 导致 相应 的 RTO 增 大 。 这 在 
一 定 程 度 上 是 有 利 的 ， 即 当 包 失 序 时 ， 发 送 端 有 更 多 的 时 间 去 发 现 是 出 现 了 失 序 而 非 
丢 包 ， 由 此 可 避免 不 必要 的 重 传 。 
成 功 重 传 : 当 收 到 接收 端 缓存 中 缺失 的 报 文 段 时 (如 成 功 接收 重 传 报 文 段 )， 窗 口 通常 
会 前 移 。 此 时 对 应 ACK 中 的 TSV 值 来 自 最 新 到 达 的 报 文 段 ， 这 是 比较 有 利 的。 若 采 
用 原来 报 文 段 中 的 TSV， 可 能 对 应 的 是 前 一 个 RTO, FAR IG RTT 估算 的 偏离 。 
图 14-4 的 例子 描述 了 这 些 点 。 假 设 三 个 报 文 段 ， 每 个 包含 1024 字 节 ， 接 收 顺 序 如 
F: 报 文 段 1 包含 1 ~ 1024 字 节 ， 报 文 段 3 包含 2049 ~ 3027 字 节 ， 接 着 是 报 文 段 2 包含 
1025 ~ 2048 字 节 。 


LastACK TSRecent 





图 14-4 当 报 文 段 失 序 ， 返 回 的 时 间 戳 为 最 新 的 使 窗口 前 移 的 报 文 段 (而 非 到 达 接 收 端的 最 大 的 时 
间 惟 )。 这 将 使 得 发 送 端 RTO 在 包 失 序 期 间 过 高 估计 RTT， 并 降低 其 重 传 积 极 性 
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图 14-4 中 发 回 的 ACK 1025 包含 了 报 文 段 1 HR (正常 的 数据 确认 )， 以 及 另 一 个 
包含 报 文 段 1 时 间 惟 的 ACK 1025 (对 应 于 在 窗口 中 但 失 序 的 重复 ACK)， 接 着 是 ACK 3037 
包含 了 报 文 段 2 的 时 间 戳 (而 非 报 文 段 3 的 时 间 惟 )。 当 分 组 失 序 (或 丢失 ) 时 ，RTT 会 被 过 
高 估算 。 较 大 的 RTT 估计 值 使 得 RTO 也 更 大 ， 由 此 发 送 端 也 不 会 急于 重 传 。 在 失 序 情况 下 
这 是 很 有 利 的 ， 因 为 过 分 积极 的 重 传 可 能 导致 伪 重 传 。 

我 们 已 经 看 到 ， 时 间 截 选项 使 得 发 送 端 即使 在 丢 包 、 延 时 、 失 序 的 情况 下 也 能 测量 
RTT。 发 送 端 在 测量 RTT 的 过 程 中 ， 可 以 在 其 选项 中 包含 任意 值 ， 但 其 单位 必须 至 少 和 实 
际 时 间 成 比例 ， 且 粒度 合理 ， 并 与 TCP 序列 号 兼容 ， 连 接 速 率 可 信 ( 详 见 [RFC1323])。 特 
别 是 ， 为 了 对 发 送 端 更 有 利 ， 对 任何 可 信 的 RTT，TCP 时 钟 必须 至 少 “ 滴 答 ” 一 次 。 另 外 ， 
其 每 次 变化 不 能 快 于 59ns。 若 小 于 ,在 IP 层 允许 单个 包 存在 的 最 大 时 间 (255s) 内 ， 记 录 
TCP 时 钟 的 32 位 的 TSV 值 能 够 环绕 [ID1323b]。 满 足 上 述 所 有 条 件 后 ，RTO 值 就 可 以 用 来 
触发 重 传 。 


14.4 ”基于 计时 器 的 重 传 


一 旦 TCP 发 送 端 得 到 了 基于 时 间 变 化 的 RTT 测量 值 ， 就 能 据 此 设置 RTO， 发 送 报 文 段 
时 应 确保 重 传 计时 器 设置 合理 。 在 设 定 计时 器 前 ， 需 记录 被 计时 的 报 文 段 序列 号 ， 若 及 时 收 
到 了 该 报 文 段 的 ACK， 那 么 计时 器 被 取消 。 之 后 发 送 端 发 送 一 个 新 的 数据 包 时 ， 需 设 定 一 
个 新 的 计时 器 ， 并 记录 新 的 序列 号 。 因 此 每 一 个 TCP 连接 的 发 送 端 不 断 地 设 定 和 取消 一 个 
重 传 计时 器 ; 如 果 没 有 数据 丢失 ， 则 不 会 出 现 计时 器 超时 。 


注意 ”该 过 程 对 主机 操作 系统 设计 者 来 说 可 能 难以 理解 。 对 典型 的 操作 系统 来 说 ， 
计时 器 用 于 标记 大 量 事件 ， 计 时 器 的 实现 也 仅 限于 有 效 地 设 定 和 触发 超时 (需要 调 
用 系统 函数 )。 然 而 对 TCP 来 说 ， 计 时 器 需要 有 效 地 实现 被 设置 、 重 新 设置 或 取消 
的 功能 ; 若 TCP 正常 工作 ， 则 计时 器 不 会 出 现 超时 的 情况 。 


若 在 连接 设 定 的 RTO 内 ，TCP 没有 收 到 被 计时 报 文 段 的 ACK， 将 会 触发 超时 重 传 。 我 
们 已 经 在 图 14-1 中 看 到 这 一 过 程 。TCP 将 超时 重 传 视 为 相当 重要 的 事件 ， 当 发 生 这 种 情况 
时 ， 它 通过 降低 当前 数据 发 送 率 来 对 此 进行 快速 响应 。 实 现 它 有 两 种 方法 : 第 一 种 方法 是 基 
于 拥塞 控制 机 制 减 小 发 送 窗口 大 小 ( 见 第 16 章 ) ; 另 一 种 方法 为 每 当 一 个 重 传 报 文 段 被 再 次 
重 传 时 ， 则 增 大 RTO 的 退 避 因子 ， 即 前 面 提 到 的 Karn 算法 的 “第 二 部 分 ”。 特 别 是 当 同 一 
报 文 段 出 现 多 次 重 传 时 ，RTO (A (暂时 性 地 ) REW y 来 形成 新 的 超时 退 避 值 : 

RTO = yRTO 

在 通常 环境 下 ，7 值 为 1。 随 着 多 次 重 传 ，” 呈 加 倍增 长: 2, 4, 8, SS. WH y 不 能 
超过 最 大 退 避 因子 (Linux 确保 其 RTO 设置 不 能 超过 TCP_RTO_MAX， 其 默认 值 为 120s)。 
一 旦 接收 到 相应 的 ACK, y 会 重 置 为 1。 


14.4.1 例子 


我 们 通过 建立 一 个 与 图 14-1 和 图 14-2 相似 的 连接 来 观察 重 传 计 时 器 的 行为 。 这 里 故意 
两 次 将 序列 号 为 1401 WREEF (ILE 14-5). 
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图 14-5 报 文 段 1401 被 人 为 地 丢弃 两 次 ， 导 致 发 送 端 引发 了 超时 重 传 。 仅 在 接收 到 使 得 发 送 窗 口 前 移 
的 ACK 时 ，srtt、rttvar 和 RTO 值 才 会 做 出 更 新 。 带 星 号 (*) 的 ACK 包含 了 SACK 信息 


在 本 例 中 ,我 们 可 以 利用 一 个 特殊 函数 将 某 个 序列 号 的 报 文 段 多 次 丢弃 。 这 与 图 14-2 
相 比 ， 将 会 使 RTT 引入 一 定 的 延 时 。 连 接 建立 之 初 与 之 前 类 似 ， 仅 当 发 送 序列 号 为 1 和 
1401 的 报 文 段 时 ， 后 一 个 包 才 被 丢弃 。 当 一 个 报 文 段 到 达 接 收 端 时 ， 接 收 端 并 没有 立即 给 出 
响应 而 是 延迟 发 送 ACK。 在 219ms 内 都 没有 得 到 回应 ， 发 送 端的 计时 器 超时 ， 导 致 序列 号 
为 1 的 包 被 重 传 (此 时 的 TSV 值 为 577 )。 随 即 该 包 的 到 达 使 得 接收 端 返回 一 个 ACK。 由 于 
该 ACK 确认 了 数据 被 成 功 接收 ， 并 使 得 窗口 前 移 ， 其 TSER 值 被 用 于 更 新 srtt 和 RTO 分 别 
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为 34 Ail 234, 

接着 返回 了 三 个 ACK， 带 星 号 (*) 的 ACK 为 重复 ACK， 包 含 了 SACK 信息 。 我 们 将 
在 14.5 节 和 14.6 WEES ACK 和 SACK。 现 在 ， 由 于 这 些 ACK 并 没有 使 发 送 窗 口 前 移 ， 
这 些 TSER 值 不 会 被 采用 。 

随 着 最 后 一 次 重 传 以 及 报 文 段 1401 BGA (在 TCP 时钟 为 911 的 时 刻 )， 修 复 阶段 完成 ， 
接收 端 返回 序列 号 为 7001 的 ACK， 表 明 所 有 数据 已 成 功 接收 。 

T 当 网 络 无 法 正常 传输 数据 时 ， 重 传 计时 器 为 TCP 连接 提供 了 “最 后 一 招 的 重新 启动 ”。 
在 大 多 数 情况 下 ， 计 时 器 超时 并 触发 重 传 是 不 必要 的 (也 不 是 期 望 的 )， 因 为 RTO 的 设置 通 
常 大 于 RIT ( 约 2 倍 或 更 大 )， 因 此 基于 计时 器 的 重 传 会 导致 网 络 利用 率 的 下 降 。 幸 运 的 是 ， 
TCP 有 另 一 种 方法 来 检测 和 修复 丢 包 ， 它 比 超时 重 传 更 为 高 效 。 由 于 它 并 不 需要 计时 器 超时 
来 触发 ， 因 此 称 为 快速 重 传 。 


14.5 快速 重 传 


快速 重 传 机 制 [RFC5681] 基于 接收 端的 反馈 信息 来 引发 重 传 ， 而 非 重 传 计 时 器 的 超时 。 
因此 与 超时 重 传 相 比 ， 快 速 重 传 能 更 加 及 时 有 效 地 修复 丢 包 情况 。 典 型 的 TCP 同时 实现 了 
两 者 。 在 详细 讨论 快速 重 传 前 ， 首 先 需 要 了 解 当 接收 到 失 序 报 文 段 时 ，TCP 需要 立即 生成 确 
认 信 息 (重复 ACK)， 并 且 失 序 情况 表明 在 后 续 数 据 到 达 前 出 现 了 丢 段 ， 即 接收 端 缓存 出 现 
了 空缺 。 发 送 端的 工作 即 为 尽快 地 、 高 效 地 填补 该 空缺 。 

当 失 序数 据 到 达 时 ， 重 复 ACK 应 立即 返回 ， 不 能 延 时 发 送 。 原因 在 于 使 发 送 端 尽早 得 
知 有 失 序 报 文 段 ， 并 告诉 其 空缺 在 哪 。 当 采用 SACK AY, HS ACK 通常 也 包含 SACK 信 
息 ， 利 用 该 信息 可 以 获知 多 个 空缺 。 

重复 ACK (不 论 是 否 包 含 SACK 信息 ) 到 达 发 送 端 表 明 先 前 发 送 的 某 个 分 组 已 丢失 。 在 
14.8 节 中 我 们 会 更 详细 地 讨论 到 ， 重复 ACK 也 可 能 在 另 一 种 情况 下 出 现 ， 即 当 网 络 中 出 现 
失 序 分 组 时 一 一 车 接收 端 收 到 当前 期 盼 序列 号 的 后 续 分 组 时 ， 当 前 期 盼 的 包 可 能 丢失 ,也 可 
能 仅 为 延迟 到 达 。 通 常 我 们 无 法 得 知 是 哪 种 情况 ， 因 此 TCR 等 待 一 定数 目的 重复 ACK ( 称 
为 重复 ACK 阅 值 或 dupthresh)， 来 决定 数据 是 否 丢 失 并 触发 快速 重 传 。 通 常 ，dupthresh 为 
常量 ( 值 为 3 )， 但 一 些 非 标准 化 的 实现 方法 (包括 Linux) 可 基于 当前 的 失 序 程度 动态 调节 
该 值 ( 见 14.8 节 )。 

快速 重 传 算法 可 以 概括 如 下 : TCP 发 送 端 在 观测 到 至 少 dupthresh 个 重复 ACK 后 ， 即 重 
传 可 能 丢失 的 数据 分 组 ， 而 不 必 等 到 重 传 计时 器 超时 。 当 然 也 可 以 同时 发 送 新 的 数据 。 根 据 
重复 ACK 推断 的 丢 包 通常 与 网 络 拥塞 有 关 ， 因 此 伴随 快速 重 传 应 触发 拥塞 控制 机 制 ( 详 见 
第 16 章 )。 不 采用 SACK 时 ， 在 接收 到 有 效 ACK 前 至 多 只 能 重 传 一 个 报 文 段 。 采 用 SACK, 
ACK 可 包含 额外 信息 ， 使 得 发 送 端 在 每 个 RTT 时 间 内 可 以 填补 多 个 空缺 。 在 描述 一 个 基本 
快速 重 传 算法 的 例子 之 后 ,我 们 将 讨论 快速 重 传 中 SACK 的 用 法 。 


14.5.1 例子 


在 下 面 的 例子 中 ， 我 们 建立 一 个 与 图 14-4 BWR, 但 这 次 丢弃 报 文 段 23801 和 
26601， 并 且 禁 用 SACK。 我 们 将 看 到 TCP 怎样 利用 基本 的 快速 重 传 算法 来 填补 空缺 。 发 送 
端 为 Linux 2.6 系统 ， 接 收 端 为 FreeBSD 5.4 AZ. Al 14-6 可 通过 Wireshark 的 “统计 |TCP 
流 图 | 时 间 序 列 图 ”( Statistics | TCP Stream Graph | Time-Sequence Graph) 功能 (tcptrace) 得 
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到 ， 该 图 显示 了 快速 重 传 行为 。 


TCP Graph 6: fast_rtx_nosack-trace.td 70.231.128.151:1044 -> 169.229.62.97:6666 


Time/Sequence Graph (tcptrace) 











0.3 0.4 0.5 0.6 0.7 0.8 0.9 





图 14-6 本 图 中 , y 轴 为 TCP 序列 号 , x 轴 为 时 间 。 发 出 的 报 文 段 用 较 深 的 黑色 线段 标 出 ， 收 到 的 
ACK 号 用 浅 灰 线 。 在 0.993s 到 达 的 第 三 个 重复 ACK 触发 快速 重 传 。 该 连接 未 采用 SACK, 
所 以 每 个 RTT 内 至 多 只 能 填补 一 个 空缺 。 之 后 到 达 的 重复 ACK 使 得 发 送 端 发 送 新 报 文 段 
( 非 重 传 报 文 段 )。 在 1.32s 时 刻 到 达 的 “部 分 ACK” 再 次 触发 了 重 传 


该 图 轴 表 示 相 对 发 送 序列 号 ，x 轴 表 示 时 间 。 黑 色 的 工 形 线段 表示 传输 报 文 段 的 序列 
号 范围 。Wireshark 中 的 蓝 色 (图 14-6 中 的 浅 灰 色 ) 线段 为 返回 的 ACK 号 。 约 1.0s 时 刻 ， 序 
列 号 23801 发 生 了 快速 重 传 (初始 传输 不 可 见 ， 因 为 被 发 送 端 TCP 下 层 丢弃 )。 第 三 个 重复 
ACK 的 到 达 触 发 了 快速 重 传 ， 图 中 表现 为 重 释 的 浅 灰 色 线 段 。 通 过 Wireshark 的 基本 分 析 窗 
口 也 可 以 观察 到 重 传 过 程 LA 14-7). 

图 14-7 的 第 一 行 (40 号 ) 为 ACK 23801 首次 到 达 。Wireshark 标示 出 了 (红色 ， 在 
图 14-7 中 看 来 是 黑色 ) 其 他 “有 趣 的 ”TCP 包 。 这 些 包 与 其 他 没有 丢失 或 异常 的 包 不 同 。 我 
们 可 以 看 到 窗口 更 新 、 重 复 ACK 和 重 传 。0.853s 时 刻 的 窗口 更 新 为 带 重复 序列 号 的 ACK( 因 
为 没有 携带 数据 )， 但 包含 了 TCP 流 控 窗口 的 变动 。 窗 口 由 231616 字 节 变 为 233016 字 节 。 
因此 ， 它 并 没有 等 到 三 个 重复 ACK 来 触发 快速 重 传 。 窗 口 更 新 仅 是 提供 了 窗口 通告 的 一 个 
副本 。 我 们 将 在 第 15 章 中 详细 讨论 。 

0.890s、0.926s 以 及 0.964s 时 刻 到 达 的 均 为 序列 号 为 23801 的 重复 ACK。 第 三 个 重复 
ACK 的 到 达 触 发 了 报 文 段 23801 的 快速 重 传 ， 时 间 为 0.993s。 该 过 程 也 可 通过 Wireshark 的 
“统计 | 流 图 ”(Statistics | Flow Graph) 功能 来 观测 (ILEI 14-8 ) 。 
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fast_rtx_nosack-trace.td - Wireshark 
ee ee 
aaya Baxar ZETEC aaan an) 


No. ITme _ Sowa J Protocol a 
| 40 0.815379 169.229.62.97 ~ TI py Bate E > 1044 [ack] Saq=i Ack=23801 Win=231616 Len=0 T5V=488i 
41 0.820951 70.231.128:151 169.229.62.9TCP 1044 > 6666 [ACK] Seq=37801 Ack=1 win=5808 Len=1400 Tsv=29' 
42 0.821692 70,231.128.151 169.229.62.9°TCP 1044 > 6666 [ACK] Seq=39201 Ack=1 Win=5808 Len=1400 TSV=2% 
43 0.822282 70.231.128.151 169.229.62,9 TCP 1044 > 6666 [ACK] Seq=40601 Ack=1 Win=5808 Len=1400 TSV=29 


46 0.893441 70.231.128.151 169.229.62.9 TCR 1044 > 6666 [ACK] Seq=42001 Ack=1 win=5808 Len=1400 TSV=29 


48 0.929728 70.231.128.151 169.229.62.9° TCP 1044 > 6666 [ACK] Seqe43401 Ack=1 win=5808 Len=1400 TSV=29 


ee 


53 1.040409 70.231.128.151 169.229.62;,9TCP _ 


$6 1.330553 70,231.128.151 169.229,62,9 TCP 


59 1/182439 70, 231.128,151 169. 229.62.9'TcR 1044 > 6666 [ACK] Seq=47601 Ack=-1 Win=5808 Len=1400 TSV=29 


(G2 1.254697 70. 231.128.151 6a. 229.6209 Tce 4 S 6666 [ACK] Seaq=49001 Ack=1) win=5808 Len-1400 TSV=29 


6665 > 1044 [ACK] Segal Ack=26601 Win=230216 Len=0 TSV=488: 


70 1.434094 709.231.128.151 169.229.62.9 TCP 1044 > 6666 [ACK] Seq=50401 Ack=1 Win=5808 Len=1400 TSV=29 
72 1.497273 169.229,62.97 70.231.128.1 TCP 6666 > 1044 [ACK] Seqel Ack=50401 Win=209216 Len=0 TSV=488; 


74 1. soe T. 231.128.151 169.229.62.9 TCP in=5808 Len=1400 TSV=29 š 
fa 3 - ara CIF E n | i: 








图 14-7 TCP 交换 的 相对 序列 号 。 包 50 和 66 为 重 传 。 包 50 是 由 三 次 重复 ACK 引发 的 快速 重 传 。 由 
于 没有 重 传 计 时 器 超时 ， 所 以 恢复 过 程 相对 较 快 


现在 我 们 换个 角度 来 看 0.993s 时 刻 的 快速 重 传 过 程 ， 也 可 以 看 1.326s 时 刻 发 生 的 第 二 
次 快速 重 传 ， 该 重 传 是 由 1.322s 时 刻 达 到 的 ACK 触发 的 。 

第 二 次 重 传 与 第 一 次 有 所 不 同 。 当 第 一 次 重 传 发 生 时 ， 发 送 端 在 执行 重 传 前 已 发 送 的 
最 大 序列 号 为 (43401 + 1400 = 44801 )， 称 为 恢复 点 (recovery point), TCP 在 接收 到 序列 
号 等 于 或 大 于 恢复 点 的 ACK 时 ， 才 会 被 认为 从 重 传 中 恢复 。 本 例 中 ，1.322s 和 1.321s 时 刻 
的 ACK 并 不 是 44801， 而 是 26601。 该 序列 号 大 于 之 前 接收 到 的 最 大 ACK 值 (23801 )， 但 
不 足以 到 达 恢 复 点 (44801 )。 因 此 这 种 类 型 的 ACK 称 为 部 分 ACK (partial ACK)。 当 部 分 
ACK 到 达 时 ，TCP 发 送 端 立即 发 送 可 能 丢失 的 报 文 段 (这 里 是 26601 )， 并 且 维 持 这 一 过 程 
直到 到 达 或 超过 恢复 点 。 如 果 拥 塞 控制 机 制 允许 〈 见 第 16 章 )， 也 可 以 同时 发 送 新 的 数据 。 

这 里 的 例子 并 没有 采用 SACK， 不 论 是 快速 重 传 ， 还 是 基于 “NewReno” 算 法 
[RFC3782] 恢复 阶段 执行 的 其 他 重 传 。 由 于 没有 SACK， 通 过 观察 返回 的 ACK 号 的 增长 情 
况 ， 发 送 端 在 每 个 RTT 内 只 能 获知 至 多 一 个 空缺 。 

在 恢复 阶段 的 具体 行为 根据 TCP 发 送 端 和 接收 端的 类 型 和 配置 差异 有 所 不 同 。 这 里 描 

述 的 是 无 SACK 发 送 端 采用 NewReno 算法 的 例子 ， 这 种 配置 比较 常见 。 根 据 NewReno 算 

法 ， 部 分 ACK 只 能 使 发 送 端 继续 处 于 恢复 状态 。 对 较 旧 的 TCP 版 本 (单纯 的 Reno 算法) 
来 说 ， 没 有 部 分 ACK 这 个 概念 ， 任 何 一 个 可 接受 的 ACK (序列 号 大 于 之 前 接收 到 的 所 有 
ACK) 都 能 使 发 送 端 结束 恢复 阶段 。 这 种 方法 可 能 会 使 TCP 出 现 一 些 性 能 问题 ， 我 们 在 第 
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16 章 会 详细 讨论 。 下 面 讨论 NewReno 和 SACK， 它 们 有 时 也 被 称 为 “高 级 丢失 恢复 ”技术 ， 
以 此 来 区 别 旧 的 方法 。 


Seq = 1 Ack = 23801 
Seq = 37801 Ack = 1 
Seq = 39201 Ack = 1 
Seq = 40601 Ack = 1 


Seq = 42001 Ack = 1 
Seq = 1 Ack = 23801 
Seq = 43401 Ack = 1 
Seq = 1 Ack = 23801 
Seq = 23801 Ack = 1 
Seq = 1 Ack = 23801 k 


Seq = 1 Ack = 23801 
Seq = 1 Ack = 26601 
Seq = 1 Ack = 26601 
[Seq = 26601 Ack = 1 





图 14-8 0.890s, 0.926s 以 及 0.964s 时 刻 到 达 的 三 次 重复 ACK 触发 了 0.993s 时 刻 的 快速 重 传 。0.853s 
时 刻 的 ACK 并 不 算 作 重复 ACK， 因 为 它 包 含 了 一 个 窗口 更 新 


14.6 ” 带 选择 确认 的 重 传 


随 着 选择 确认 选项 的 标准 化 [RFC2018]，TCP 接收 端 可 提供 SACK 功能 ， 通 过 TCP 头 
部 的 累积 ACK 号 字段 来 描述 其 接收 到 的 数据 。 之 前 提 到 过 ，ACK 号 与 接收 端 缓存 中 的 其 他 
数据 之 间 的 间隔 称 为 空缺 。 序 列 号 高 于 空缺 的 数据 称 为 失 序数 据 ， 因 为 这 些 数 据 和 之 前 接收 
的 序列 号 不 连续 。 

TCP 发 送 端的 任务 是 通过 重 传 丢 失 的 数据 来 填补 接收 端 缓存 中 的 空缺 ， 但 同时 也 要 尽 可 
能 保证 不 重 传 已 正确 接收 到 的 数据 。 在 很 多 环境 下 ， 合 理 采 用 SACK 信息 能 更 快 地 实现 空缺 
填补 ， 且 能 减少 不 必要 的 重 传 ， 原 因 在 于 其 在 一 个 RIT 内 能 获知 多 个 空缺 。 当 采用 SACK 
选项 时 ， 一 个 ACK 可 包含 三 四 个 告知 失 序 数据 的 SACK 信息 。 每 个 SACK 信息 包含 32 位 
的 序列 号 ， 代 表 接 收 端 存储 的 失 序数 据 的 起 始 至 最 后 一 个 序列 号 (加 1 )。 

SACK 选项 指定 n 个 块 的 长 度 为 8n +2 字 节 ， 因 此 40 字 节 可 包含 最 多 4 个 块 。 通 常 
SACK 会 与 TSOPT 一 同 使 用 ， 因 此 需要 额外 的 10 个 字 节 (外 加 2 字 节 的 填充 数据 )， 这 意味 
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着 SACK 在 每 个 ACK 中 只 能 包含 3 个 块 。 

3 个 块 表 明 可 向 发 送 端 报告 3 个 空缺 。 若 不 受 拥塞 控制 ( 见 第 16 章 ) 限制 ， 利 用 SACK 
选项 可 在 一 个 RTT 时 间 填 补 3 个 空缺 。 包 含 一 个 或 多 个 SACK HA ACK 有 时 也 简单 称 为 
“SACK” 。 


14.6.1 SACK 接收 端 行为 


TO 接收 端 在 TCP 连接 建立 期 间 ( 见 第 13 BE) 收 到 SACK 许可 选项 即 可 生成 SACK。 通 党 
来 说 ， 每 当 缓 存 中 存在 失 序 数据 时 ， 接 收 端 就 可 生成 SACK。 导 致 数据 失 序 的 原因 可 能 是 由 
于 传输 过 程 中 丢失 ， 也 可 能 是 新 数据 先 于 旧 数 据 到 达 。 这 里 只 讨论 第 一 种 情况 ， 后 一 种 留待 
以 后 再 讨论 。 

第 一 个 SACK 块 内 包含 的 是 最 近 接 收 到 的 (most recently received) 报 文 段 的 序列 号 
范围 。 由 于 SACK 选项 的 空间 有 限 ， 应 尽 可 能 确保 向 TCP 发 送 端 提供 最 新 信息 。 其 余 的 
SACK 块 包含 的 内 容 也 按照 接收 的 先后 依次 排列 。 也 就 是 说 ， 最 新 一 个 块 中 包含 的 内 容 除了 
包含 最 近 接 收 的 序列 号 信息 ， 还 需 重复 之 前 的 SACK 块 (在 其 他 报 文 段 中 )。 

在 一 个 SACK 选项 中 包含 多 个 SACK 块 ， 并 且 在 多 个 SACK 中 重复 这 些 块 信息 的 目的 
在 于 ， 为 防止 SACK 技 失 提供 一 些 备 份 。 若 SACK 不 会 丢失 ，[RFC2018] 指出 每 个 SACK 
中 包含 一 个 SACK 块 即 可 实现 SACK 的 全 部 功能 。 不 幸 的 是 ，SACK 和 普通 的 ACK 有 时 会 
丢失 ， 并 且 若 其 中 不 包含 数据 (SYN 或 FIN 控制 位 字段 不 被 置 位 ) 就 不 会 被 重 传 。 


14.6.2 SACK 发 送 端 行为 


尽管 一 个 支持 SACK 的 接收 端 可 通过 生成 合适 的 SACK 信息 来 充分 利用 SACK， 但 还 
不 足以 使 该 TCP 连接 充分 利用 SACK 功能 。 在 发 送 端 也 应 提供 SACK 功能 ， 并 且 合 理 地 利 
用 接收 到 的 SACK 块 来 进行 丢失 重 传 ， 该 过 程 也 称 为 选择 性 重 传 ( selective retransmission) 
或 选择 性 重 发 (selective repeat), SACK 发 送 端 记录 接收 到 的 累积 ACK 信息 URKE TCP 
发 送 端 一 样 )， 还 需 记 录 接 收 到 的 SACK 信息 ， 并 利用 该 信息 来 避免 重 传 正确 接收 的 数据 。 
一 种 方法 是 当 接 收 到 相应 序列 号 范围 的 ACK 时 ， 则 在 其 重 传 缓存 中 标记 该 报 文 段 的 选择 重 
传 成 功 。 

当 SACK 发 送 端 执行 重 传 时 ， 通 常 是 由 于 其 收 到 了 SACK 或 重复 ACK， 它 可 以 选择 发 
送 新 数据 或 重 传 旧 数据 。SACK 信息 提供 接收 端 数据 的 序列 号 范围 ， 因 此 发 送 端 可 据 此 推断 
需要 重 传 的 空缺 数据 。 最 简单 的 方法 是 使 发 送 端 首先 填补 接收 端的 空缺 ， 然 后 再 继续 发 送 新 
数据 [RFC3517] (车 拥塞 控制 机 制 允 许 )。 这 也 是 最 常用 的 方法 。 

该 行为 有 一 个 例外 。 在 [RFC2018] 中 ，SACK 选项 和 SACK 块 的 当前 规范 是 建议 性 的 
(advisory)。 这 意味 着 接收 端 可 能 提供 一 个 SACK 告诉 发 送 端 已 成 功 接收 一 定 序列 号 范围 的 
数据 ， 而 之 后 做 出 变更 (“ 食 言 ”)。 由 于 这 个 原因 ，SACK 发 送 端 不 能 在 收 到 一 个 SACK 后 
立即 清空 其 重 传 缓存 中 的 数据 ; 只 有 当 接 收 端 的 普通 TCP ACK 号 大 于 其 最 大 序列 号 值 时 才 
可 清除 。 这 一 规则 同样 影响 重 传 计时 器 超时 的 行为 。 当 TCP 发 送 端 启动 基于 计时 器 的 重 传 
时 ， 应 忽略 SACK 显示 的 任何 关于 接收 端 数据 失 序 的 信息 。 如 果 接 收 端 仍 存在 失 序 数据 ， 那 
么 重 传 报 文 段 的 ACK 中 就 包含 附加 的 SACK 块 ， 以 便 发 送 者 使 用 。 幸 运 的 是 ， 食 言情 况 很 
少 出 现 ， 也 应 尽量 避免 出 现 。 
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14.6.3 ”例子 


为 理解 SACK 怎样 影响 发 送 端 和 接收 端的 行为 ， 我 们 重复 前 面 的 快速 重 传 实 验 ， 参 数 设 
置 也 如 前 (丢掉 序列 号 23601 与 28801 )， 但 这 次 发 送 端 和 接收 端 都 采用 SACK。 为 准确 观测 


到 实验 过 程 ， 我 们 仍 采 用 Wireshark 的 TCP 序列 号 (tcptrace) 图 功能 ( 见 图 14-9 ) 。 


TCP Graph 1: fast_rtx_sack-trace.td 70.231.128.151:1043 -> 169.229.62.97:6666 SEE 


REE Time/Sequence Graph (tcptrace) 
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14-9 ”第 一 个 包含 SACK 信息 的 重复 ACK 触发 了 快速 重 传 。 后 一 个 ACK 的 到 达 使 得 发 送 端 了 解 到 
第 二 个 丢失 的 报 文 段 ， 并 在 同一 个 RTT 内 重 传 了 该 报 文 段 


图 14-9 与 图 14-6 类 似 , 但 利用 SACK 信息 ， 发 送 端 在 重 传 完 报 文 段 23601 后 ， 不 必 等 
待 一 个 RTT 再 重 传 丢 失 报 文 段 28801。 后 面 将 仔细 讨论 这 些 内 容 ， 现 在 我 们 首先 在 连接 建立 
过 程 中 验证 SACK 允许 (SACK-Permitted) 选项 的 存在 ， 见 图 14-10。 

与 预计 的 一 样 ， 接 收 端 通过 SACK 允许 选项 来 使 用 SACK。 发 送 端的 SYN 包 ， 即 记录 
的 第 一 个 包 ， 也 包含 了 该 选项 。 这 些 选 项 只 在 连接 建立 阶段 才能 看 到 ， 因 此 只 出 现在 SYN 
置 位 的 报 文 段 中 。 

一 旦 连接 被 允许 使 用 SACK， 发 生 丢 包 即 会 使 得 接收 端 开始 生成 SACK。Wireshark 显 
示 了 第 一 个 SACK 选项 的 内 容 ( 见 图 14-11 )。 

图 14-11 显示 了 首 个 SACK 被 接收 后 的 一 系列 事件 。Wireshark 通过 SACK 范围 的 左右 
边界 来 表示 SACK 信息 。 这 里 我 们 看 到 23801 的 ACK 包含 了 一 个 SACK # [25201, 26601], 
指明 接收 端的 空缺 。 接 收 端 缺失 的 序列 号 范围 为 [23801，25200]， 相 当 于 一 个 从 序列 号 
23801 开始 的 1400 字 节 的 包 。 注 意 到 该 SACK 为 一 次 窗口 更 新 ， 并 不 能 算 作 重复 ACK， 之 
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前 也 提 到 过 ， 因 此 不 能 触发 快速 重 传 。 


fast_rtx_sack-trace.td - Wireshark 


Ele _ Ed So sy Spite, Telephony. -JPa -iep aae 
Sue CEIETEECT 


Source port: 6666 (6666) 

Destination port: 1043 (1043) 

[stream index: 0] 

Sequence number: 0 (relative sequence number) 
Acknowledgement number: 1 (relative ack number) 
Header length: 44 bytes 


window size: 1460 
@ Checksum: Oxd262 [correct] 
a Options: (24 bytes) 
Maximum segment size: 1460 bytes 
NOP 
window scale: 2 (multiply by 4) 


: TSval 488819609, TSecr 297077721 


TCP SACK Permitted option: True 
@ [SEQ/ACK analysis] 
w [Timestamps] 
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图 14-10 SYN 报 文 段 中 SACK 允许 选项 表明 可 生成 和 发 送 SACK 信息 。 现 在 的 大 部 分 TCP 版 本 在 连 


接 建立 阶段 都 支持 MSS, WTA, BAP RR SACK 允许 选项 


fast_rix_sack-trace,td 














PPPS 
a pana i : i 
62,97}, DSE? 70-231. 128.151 (70.231.128, 151) 


source port: 6666 (6666) 
Destination port: 1043 (1043) 
(stream index: 0] 
Sequence number: 1 (relative sequence number) 
acknowledgement number: 23801 (relative ack number) 
Header length: 44 bytes 
@ Flags: 0x10 (Ack) 
Window size: 233016 (scaled) 
w Checksum: OxSf55 [correct] 
& Options: (24 bytes) 


: TSval 488819700, TSecr 297078328 


S SACK; 25201-26601 
left edge = 25201 (relative) 
right edge = 26601 (relative) 


a 
æ [Timestamps] 


图 14-11 第 一 个 ACK 包含 SACK 信息 表明 失 序 数据 的 序列 号 范围 为 25201 至 26601 
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0.967s 时 刻 到 达 的 SACK 包含 两 个 块 : [28001, 29401] 和 [25201，26601]。 回 忆 一 下 前 
面 提 过 的 ， 为 提高 对 ACK 丢失 的 和 鲁 棒 性 ， 第 一 个 SACK 块 中 需要 包含 之 前 的 重复 SACK 信 
息 。 该 SACK 为 序列 号 23801 的 重复 ACK， 表 明 接收 端 现 在 需要 从 序列 号 23801 至 26601 
的 两 个 全 长 报 文 段 。 发 送 端 立 即 响 应 ， 启 动 快 速 重 传 ， 但 由 于 拥塞 控制 机 制 ( 见 第 16 章 )， 
发 送 端 只 重 传 了 一 个 报 文 段 23801。 随 着 另外 的 两 个 ACK 的 到 达 ， 发 送 端 被 允许 发 送 第 二 
个 重 传 报 文 段 26601。 

TCP SACK 发 送 端 借鉴 了 NewReno 算法 中 的 恢复 点 的 思想 。 本 例 中 ， 在 重 传 前 发 送 的 
最 大 序列 号 为 43400， 低 于 图 14-5 所 示 的 NewReno 算法 的 例子 。 这 里 的 SACK 快速 重 传 实 
现 中 ， 不 需要 三 次 重复 ACK ; TCP 更 早 地 启动 了 重 传 ， 但 恢复 的 出 口 本 质 上 是 一 致 的 。 一 
且 接 收 到 序列 号 43401 的 ACK, E 1.3958s 时 刻 ， 恢 复 阶 段 即 完成 。 

值得 注意 的 是 ， 发 送 端 采用 SACK 并 不 能 百 分 百 地 提高 整体 传输 性 能 。 我 们 来 看 之 前 讨 
论 过 的 这 两 个 例子 ，NewReno 发 送 端 (JE SACK) 完成 131 074 字 节 的 数据 传输 用 时 3.529s, 
而 SACK 发 送 端 则 用 了 3.674s。 尽 管 这 两 个 值 不 能 这 样 直接 比较 ， 因 为 两 者 所 处 的 网 络 环 
境 并 非 绝 对 相同 (这 不 是 仿真 实验 ， 而 是 在 真实 环境 中 的 测试 )， 但 极为 近似 。 在 RTT RK, 
丢 包 严重 的 情况 下 ，SACK 的 优势 就 能 很 好 地 体现 出 来 ， 因 为 在 这 样 的 环境 下 ， 一 个 RITA 
能 填补 多 个 空缺 显得 尤为 重要 。 


14.7” 伪 超时 与 重 传 


在 很 多 情况 下 ， 即 使 没有 出 现 数据 丢失 也 可 能 引发 重 传 。 这 种 不 必要 的 重 传 称 为 伪 重 
传 (spurious retransmission)， 其 主要 造成 原因 是 伪 超 时 (spurious timeout)， 即 过 早 判定 超时 ， 
其 他 因素 如 包 失 序 、 包 重复 , 或 ACK 丢失 也 可 能 导致 该 现象 。 在 实际 RTT 显著 增长 ， 超 过 
当前 RTO 时 ， 可 能 出 现 伪 超 时 。 在 下 层 协议 性 能 变化 较 大 的 环境 中 (如 无 线 环境 )， 这 种 情 
况 出 现 得 比较 多 ，[KP87] 中 也 提 到 。 这 里 我 们 仅 关注 由 伪 超 时 导致 的 伪 重 传 。 失 序 与 重复 的 
影响 在 下 面 的 章节 中 再 讨论 。 

为 处 理 伪 超 时 间 题 提出 了 许多 方法 。 这 些 方法 通常 包含 检测 ( detection) 算法 与 响应 
(response) 算法 。 检 测算 法 用 于 判断 某 个 超时 或 基于 计时 器 的 重 传 是 否 真 实 ， 一旦 认定 出 现 
伪 超 时 则 执行 响应 算法 ， 用 于 撤销 或 减轻 该 超时 带 来 的 影响 。 本 章 中 我 们 只 讨论 报 文 段 重 传 
行为 。 典 型 的 响应 算法 也 涉及 拥塞 控制 变化 ， 会 在 第 16 章 讨论 。 

图 14-12 描述 了 一 个 简化 的 TCP 交换 过 程 。 在 报 文 段 8 发 送 完成 后 ACK 链 路 上 出 现 
了 延迟 高 峰 导 致 了 一 次 伪 重 传 。 在 报 文 段 5 超时 重 传 后 ， 原 始 传输 的 报 文 段 5 ~ 8 的 ACK 
仍然 处 于 在 传 状 态 。 本 图 中 为 简便 起 见 ， 序 列 号 和 ACK 号 都 基于 包 而 非 字 节 来 表示 ， 并且 
ACK 号 表示 已 接收 到 的 包 ， 而 非 期 望 接收 的 下 一 个 包 。 当 这 些 ACK 到 达 时 ， 发 送 端 继续 重 
传 早已 接收 的 其 他 报 文 段 ， 从 已 确认 的 报 文 段 之 后 开始 。 这 导致 TCP HLS “ENEN” (go- 
back-N) 的 行为 模式 ， 并 产生 了 更 多 的 重复 ACK 返回 发 送 端 ， 这 时 就 可 能 会 触发 快速 重 传 。 
针对 这 一 问题 ， 提 出 了 一 些 方法 来 减轻 不 良 影响 。 下 面 我 们 讨论 其 中 比较 常用 的 几 种 方法 。 


14.7.1 重复 SACK (DSACK) 扩展 


在 非 SACK 的 TCP 中 ，ACK 只 能 向 发 送 端 告知 最 大 的 有 序 报 文 段 。 采 用 SACK 则 可 告 
知 其 他 的 ( 失 序 ) 报 文 段 。 基 本 的 SACK 机 制 对 接收 端 收 到 重复 数据 段 时 怎样 运作 没有 规定 。 
这 些 重复 数据 可 能 是 伪 重 传 、 网 络 中 的 重复 或 其 他 原因 造成 的 。 
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图 14-12 在 传输 完 报 文 段 8 后 出 现 了 一 次 延迟 高 峰 ， 导 致 了 报 文 段 5 的 伪 超 时 和 重 传 。 重 传 完成 后 ， 
首次 传输 的 报 文 段 5 对 应 的 ACK 到 达 。 报 文 段 5 的 重 传 使 得 接收 端 收 到 了 重复 报 文 段 ， 紧 
接着 又 重 传 了 报 文 段 6、7、8， 尽 管 在 接收 端 已 存在 这 些 报 文 段 ， 整 个 连接 还 是 执行 了 “ 回 
BN" 行为 


E SACK 接收 端 采 用 DSACK (或 称 作 D-SACK)， 即 重复 SACK[RFC2883]， 并 结合 i 
常 的 SACK 发 送 端 ， 可 在 第 一 个 SACK 块 中 告知 接收 端 收 到 的 重复 报 文 段 序列 号 。DSACK 
的 主要 目的 是 判断 何 时 的 重 传 是 不 必要 的 ， 并 了 解 网 络 中 的 其 他 事项 。 因 此 发 送 端 至 少 可 以 
推断 是 否 发 生 了 包 失 序 、ACK 丢失 、 包 重复 或 伪 重 传 。 

DSACK 相 比 于 传统 SACK 并 不 需要 额外 的 协商 过 程 。 为 使 其 正常 工作 ， 接 收 端 返回 
的 SACK 的 内 容 会 有 所 改变 ， 对 应 的 发 送 端的 响应 也 会 随 之 变化 。 如 果 一 个 非 DSACK 与 
DSACK 的 TCP 共用 一 个 连接 ， 它 们 会 交互 操作 ,但 非 DSACK 不 能 使 用 DSACK 的 功能 。 

SACK 接收 端的 变化 在 于 ， 人 允许 包含 序列 号 小 于 (RET) 累积 ACK 号 字段 的 SACK 
块 。 这 并 非 SACK 的 本 意 ， 但 这 样 做 能 很 好 地 配合 该 目的 。( 在 DSACK 信息 高 于 累积 ACK 
号 字段 的 情况 下 ， 即 出 现 重复 的 失 序 报 文 段 时 ， 它 也 能 很 好 地 工作 。) DSACK 信息 只 包含 在 
HA ACK HF, HACK 称 为 DSACK。 与 通常 的 SACK 信息 不 同 ，DSACK 信息 不 会 在 多 个 
SACK 中 重复 。 因 此 ，DSACK 较 通 常 的 SACK 和 鲁 棒 性 低 。 

[RFC2883] 没有 有 具体 规定 发 送 端 对 DSACK 怎样 处 理 。[RFC3708] 给 出 了 一 种 实验 算法 ， 
利用 DSACK 来 检测 伪 重 传 ， 但 它 并 没有 提供 响应 算法 。 它 提 到 可 采用 Eifel 响应 算法 ， 我 
们 在 14.7.4 节 中 会 讨论 ， 在 此 之 前 我 们 先 介 绍 一 些 其 他 的 检测 算法 。 


14.7.2 Eifel 检测 算法 


本 章 开 头 ， 我 们 讨论 了 重 传 二 义 性 问题 。 实 验 性 的 Eifel 检测 算法 [RFC3522] 利用 了 
TCP 的 TSOPT 来 检测 伪 重 传 。 在 发 生 超 时 重 传 后 ，Eifel 算法 等 待 接收 下 一 个 ACK， 若 为 针 
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对 第 一 次 传输 ( 即 原 始 传 输 ) 的 确认 ， 则 判定 该 重 传 是 伪 重 传 。 

利用 Eifel 检测 算法 能 比 仅 采用 DSACK 更 早 检测 到 伪 重 传 行 为 ， 因 为 它 判 断 伪 重 传 的 
ACK 是 在 启动 丢失 恢复 之 前 生成 的 。 相 反 ，DSACK 只 有 在 重复 报 文 段 到 达 接 收 端 后 才能 发 
送 ， 并 且 在 DSACK 返回 至 发 送 端 后 才能 有 所 响应 。 及 早 检测 伪 重 传 更 为 有 利 ， 它 能 使 发 送 
端 有 效 避 免 前 面 提 到 的 “ 回 退 N” 行 为 。 

Eifel 检测 算法 的 机 制 很 简单 。 它 需要 使 用 TCP 的 TSOPT。 当 发 送 一 个 重 传 (不 论 是 基 
于 计时 器 的 重 传 还 是 快速 重 传 ) 后 ,保存 其 TSV 值 。 当 接收 到 相应 分 组 的 ACK 后 ， 检 查 该 
ACK 的 TSER 部 分 。 若 TSER 值 小 于 之 前 存储 的 TSV 值 ， 则 可 判定 该 ACK 对 应 的 是 原始 
传输 分 组 ， 即 该 重 传 是 伪 重 传 。 这 种 方法 针对 ACK 丢失 也 有 很 好 的 鲁 棒 性 。 如 果 一 个 ACK 
ER, 后续 ACK 的 TSER 值 仍 比 存储 的 重 传 分 组 的 TSV 小 。 该 窗口 内 的 任 一 ACK 的 到 达 
都 能 判断 是 否 出 现 伪 重 传 ， 因 此 单个 ACK 的 丢失 不 会 造成 太 大 问题 。 

Eifel 检测 算法 可 与 DSACK 结合 使 用 ， 这 样 可 以 解决 整个 窗口 的 ACK fA BIER, 但 
原始 传输 和 重 传 分 组 都 成 功 到 达 接 收 端 的 情况 。 在 这 种 特殊 情况 下 ， 重 传 分 组 的 到 达 会 生成 
一 个 DSACK。Eifel 算法 会 理所当然 地 认定 出 现 了 伪 重 传 。 然 而 ， 在 出 现 了 如 此 之 多 的 ACK 
丢失 的 情况 下 ,使 得 TCP 相信 该 重 传 不 是 伪 重 传 是 有 用 的 (例如 ， 使 其 减 慢 发 送 速 率 一 一 采 
用 拥塞 控制 的 后 果 ， 第 16 章 会 讨论 )。 因 此 ，DSACK 的 到 达 会 使 得 Eifel 算法 认定 相应 的 重 
传 不 是 伪 重 传 。 


14.7.3 ”前 移 RTO 恢复 (F-RTO ) 


前 移 RTO 恢复 (Forward-RTO Recovery, F-RTO) [RFC5682] 是 检测 伪 重 传 的 标准 算法 。 
它 不 需要 任何 TCP 选项 ， 因 此 只 要 在 发 送 端 实现 该 方法 后 ， 即 使 针对 不 支持 TSOPT 的 接收 
端 也 能 有 效 地 工作 。 该 算法 只 检测 由 重 传 计时 器 超时 引发 的 伪 重 传 ， 对 之 前 提 到 的 其 他 原因 
引起 的 伪 重 传 则 无 法 判断 。 

在 一 次 基于 计时 器 的 重 传 之 后 ，F-RTO 会 对 TCP 的 常用 行为 做 出 一 定 修改 。 由 于 这 类 
重 传 针对 的 是 没有 收 到 ACK 信息 的 最 小 序列 号 ， 通 常情 况 下 ，TCP 会 继续 按 序 发 送 相 邻 的 
分 组 ， 这 就 是 前 面 描述 的 “ 回 退 N” ITH 

F-RTO 会 修改 TCP 的 行为 ， 在 超时 重 传 后 收 到 第 一 个 ACK AY, TCP 会 发 送 新 〈 非 重 传 ) 
数据 ， 之 后 再 响应 后 一 个 到 达 的 ACK。 如 果 其 中 有 一 个 为 重复 ACK， 则 认为 此 次 重 传 没 问 
题 。 如 果 这 两 个 都 不 是 重复 ACK， 则 表示 该 重 传 是 伪 重 传 。 这 种 方法 比较 直观 。 如 果 新 数 
据 的 传输 得 到 了 相应 的 ACEK， 就 使 得 接收 端 窗口 前 移 。 如 果 新 数据 的 发 送 导 致 了 重复 ACK， 

那么 接收 端 至 少 有 一 个 或 更 多 的 空缺 。 这 两 种 情况 下 ， 接 收 新 数据 都 不 会 影响 整体 数据 的 传 

输 性 能 〈 假 设 接收 端 有 足够 的 存储 空间 )。 


14.7.4 Eifel 响应 算法 


一 旦 判断 出 现 伪 重 传 ， 则 会 引发 一 套 标准 操作 ， 即 Eifel 响应 算法 [RFC4015]。 由 于 响 

应 算法 逻辑 上 与 Eifel 检测 算法 分 离 ， 所 以 它 可 与 我 们 前 面 讨论 的 任 一 种 检测 方法 结合 使 

用 。 原 则 上 超时 重 传 和 快速 重 传 都 可 使 用 Eifel 响应 算法 , 但 目前 只 针对 超时 重 传 做 了 相关 
规定 。 

尽管 Eifel 响应 算法 可 结合 其 他 检测 算法 使 用 ,但 根据 是 否 能 尽早 (如 Eifel 检测 算法 或 

F-RTO) 或 较 迟 (如 DSACK) 检测 出 伪 超 时 的 不 同 而 有 所 区 别 。 前 者 称 为 伪 超 时 ， 通 过 检查 
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ACK 或 原始 传输 来 实现 。 后 者 称 为 迟 伪 超 时 (late spurious timeout), SEF rH (14) 超时 而 引 
发 的 重 传 所 返回 的 ACK 来 判定 。 

响应 算法 只 针对 第 一 种 重 传 事件 。 若 在 恢复 阶段 完成 之 前 再 次 发 生 超 时 ， 则 不 会 执行 
响应 算法 。 在 重 传 计时 器 超时 后 ， 它 会 查看 srtt 和 rttvar 的 值 ， 并 按 如 下 方式 记录 新 的 变量 
srtt_prev 和 rttvar_ prev: 
srtt prev = srtt + 2(G) 

j rttvar_prev = rttvar 
在 任何 一 次 计时 器 超时 后 ， 都 会 指定 这 两 个 变量 ,但 只 有 在 判定 出 现 伪 超时 才 会 使 用 它们 ， 
用 于 设 定 新 的 RTO。 在 上 式 中 ，G 代表 TCP 时 钟 粒 度 。srtt_prey 设 为 srtt 加 上 两 倍 的 时 钟 
粒度 是 由 于 : srtt 的 值 过 小 ， 可 能 会 出 现 伪 超时 。 如 果 stt 稍 大 ， 就 可 能 不 会 发 生 超时 。srtt 
加 上 2G 得 到 srtt_prev， 之 后 都 使 用 srtt_prev 来 设置 RTO。 

完成 srtt_prev 和 rttvar_prev 的 存储 后 ， 就 要 触发 某 种 检测 算法 。 运 行 检测 算法 后 可 得 到 
一 个 特殊 的 值 ， 称 为 伪 恢 复 (SpuriousRecovery)。 如 果 检 测 到 一 次 伪 超 时 ， 则 将 伪 恢 复 置 为 
SPUR_TO。 如 果 检 测 到 迟 伪 超 时 ， 则 将 其 置 为 LATE_SPUR_TO。 和 否则 ， 该 次 超时 为 正常 超 
时 ，TCP 继续 执行 正常 的 响应 行为 。 

若 伪 恢复 为 SPUR_TO，TCP 可 在 恢复 阶段 完成 之 前 进行 操作 。 通 过 将 下 一 个 要 发 送 报 
文 段 ( 称 为 SND.NXT) 的 序列 号 修改 为 最 新 的 未 发 送 过 的 报 文 段 ( 称 为 SND.MAX)。 这 样 
就 可 在 首次 重 传 后 避免 不 必要 的 “ 回 退 W” 行 为 。 如 果 检 测 到 一 次 迟 伪 超 时 ， 此 时 已 生成 对 
首次 重 传 的 ACK， 则 SND.NXT 不 改变 。 在 以 上 两 种 情况 中 ,都 要 重新 设置 拥塞 控制 状态 
( 见 第 16 章 )。 并 且 一 旦 接收 到 重 传 计 时 器 超时 后 发 送 的 报 文 段 的 ACK， 就 要 按 如 下 方式 更 
新 srtt、rttvar 和 RTO 的 值 : 

srtt + max(srtt prev, m) 
rttvar + max(rttvar_prev, m/2) 
RTO = srtt + max(G, 4(rttvar)) 

这 里 , m 是 一 个 RIT 样本 值 ， 它 是 基于 超时 后 首 个 发 送 数据 收 到 的 ACK 而 计算 得 到 的 。 
进行 这 些 变量 更 新 的 目的 在 于 ， 实 际 的 RTT 值 可 能 发 生 了 很 大 变化 ，RTT 的 当前 估计 值 已 
经 不 适合 用 于 设置 RTO。 若 路 径 上 的 实际 RTT 突然 增 大 (例如 由 于 无 线 切换 至 一 个 新 的 基 
站 )， 当 前 的 srtt 和 rttvar 就 显得 过 小 ， 应 重新 设置 。 而 男 一 方面 ，RTT 的 增 大 可 能 只 是 暂时 
的 ， 这 时 重 设 srtt 和 rttvar 的 值 就 不 那么 明智 了 ， 因 为 它们 原先 的 值 可 能 更 为 精确 。 

在 新 RTT 样本 值 较 大 的 情况 下 ， 上 述 等 式 尽力 获得 上 述 两 种 情况 的 平衡 。 这 样 做 可 以 
有 效 地 抛弃 之 前 的 RTT 历史 值 (和 RTT 的 历史 变化 情况 )。 只 有 在 响应 算法 中 srtt 和 rttvar 
的 值 才 会 增 大 。 若 RTT 不 会 增 大 ， 则 维持 估计 值 不 变 ， 这 本 质 上 是 忽略 超时 情况 的 发 生 。 
两 种 情况 中 ，RTO 还 是 按 正 常 方式 进行 更 新 ， 并 针对 此 次 超时 设置 新 的 重 传 计 时 器 值 。 


148 包 失 序 与 包 重 复 

前 面 讨 论 的 都 是 TCP 如 何 处 理 包 丢 失 的 问题 。 这 是 普遍 讨论 的 问题 ， 而 且 针 对 包 丢 失 
的 鲁 棒 性 问题 已 经 做 了 很 多 工作 。 在 最 后 一 个 章节 中 可 以 看 到 ， 其 他 的 包 传输 异常 现象 ， 如 
重复 和 失 序 问题 也 会 影响 TCP 操作 。 在 这 两 种 情况 中 ,我 们 希望 TCP 能 区 分 是 出 现 了 失 序 
或 重复 还 是 丢失 。 我 们 接 下 来 会 看 到 ， 正 确 区 分 这 些 情况 并 非 易 事 。 
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14.8.1 KF 


在 IP 网络 中 出 现 包 失 序 的 原因 在 于 IP 层 不 能 保证 包 传输 是 有 序 进 行 的 。 这 一 方面 是 有 
利 的 (至 少 对 IP 层 来 说 )， 因 为 P 可 以 选择 另 一 条 传输 链 路 〈 例 如 传输 速度 更 快 的 路 径 )， 而 
不 用 担心 新 发 送 的 分 组 会 先 于 旧 数 据 到 达 ， 这 就 导致 数据 的 接收 顺序 与 发 送 顺序 不 一 致 。 还 
有 其 他 的 原因 也 会 导致 包 失 序 。 例 如 ， 在 硬件 方面 一 些 高 性 能 路 由 器 会 采用 多 个 并 行 数据 链 
路 [BPS99]， 不 同 的 处 理 延 时 也 会 导致 包 的 离开 顺序 与 到 达 顺 序 不 匹配 。 

失 序 问题 可 能 存在 于 TCP 连接 的 正 向 或 反 向 链 路 中 (也 可 能 两 者 同时 存在 )。 数 据 段 的 
失 序 与 ACK 包 的 失 序 对 TCP 的 影响 有 一 定 差别 。 回 忆 一 下 ， 由 于 非 对 称 路 由 ， 经 常会 出 现 
ACK 经 不 同 于 数据 包 的 链 路 (和 不 同 路 由 器 ) 传输 。 

当 传 输出 现 失 序 时 , TCP 可 能 会 在 某 些 方面 受 影响 。 如 果 失 序 发 生 在 反 向 (ACK) 链 路 ， 
就 会 使 得 TCP 发 送 端 窗口 快速 前 移 ， 接 着 又 可 能 收 到 一 些 显然 重复 而 应 被 丢弃 的 ACK H 
于 TCP 的 拥塞 控制 行为 ( 见 第 16 章 )， 这 种 情况 会 导致 发 送 端 出 现 不 必要 的 流量 突 发 ( 即 瞬 
时 的 高 速 发 送 ) 行为 ,影响 可 用 网 络 带 宽 。 

如 果 失 序 发 生 在 正 向 链 路 ，TCP 可 能 无 法 正确 识别 失 序 和 丢 包 。 数 据 的 丢失 和 失 序 都 会 
导致 接收 端 收 到 无 序 的 包 ， 造 成 数据 之 间 的 空缺 。 当 失 序 程度 不 是 很 大 (如 两 个 相 邻 的 包 交 
换 顺 序 )， 这 种 情况 可 以 迅速 得 到 处 理 。 反 之 ， 当 出 现 严重 失 序 时 ，TCP 会 误 认为 数据 已 经 
丢失 。 这 就 会 导致 伪 重 传 ， 主 要 来 自 快 速 重 传 算法 。 

回忆 一 下 之 前 的 讨论 ， 快 速 重 传 是 根据 收 到 重复 ACK 来 推断 出 现 丢 包 并 启动 重 传 ， 而 
不 必 等 待 重 传 计时 器 超时 。 由 于 TCP 接收 端 会 对 接收 到 的 失 序 数据 立即 返回 ACK， 以 此 来 
帮助 触发 快速 重 传 ， 因 此 网 络 中 任何 一 个 失 序 的 数据 包 都 会 生成 重复 ACK。 由 于 网 络 中 少量 
失 序 情况 是 常见 的 ， 假 设 一 旦 收 到 重复 ACK， 发 送 端 即 启动 快速 重 传 ， 那 么 就 会 导致 大 量 不 
必要 的 重 传 发 生 。 为 解决 这 一 问题 ， 快 速 重 传 仅 在 达到 重复 阔 值 (dupthresh) 后 才 会 被 触发 。 

图 14-13 描述 了 上 述 情况 。 图 中 左 半 部 分 表示 在 轻微 失 序 的 情况 下 TCP 的 操作 ， 这 里 的 
dupthresh 设 为 3。 单 个 重复 ACK 不 会 影响 TCP 的 行为 。 右 半 部 分 表示 出 现 严重 失 序 时 的 情 
况 。 由 于 出 现 了 3 次 失 序 ， 对 应 生成 了 3 次 重复 ACK， 因 此 触发 了 快速 重 传 ， 使 得 接收 端 
收 到 了 一 个 重复 报 文 段 。 


快速 
重 传 





图 14-13 BARF (£) 中 ， 可 忽略 少量 的 重复 ACK。 当 失 序 状况 较为 严重 (A) 时 ， 这 里 4 个 包 中 
有 三 个 出 现 失 序 ， 就 会 触发 伪 快 速 重 传 
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区 分 丢 包 与 失 序 不 是 一 个 很 重要 的 问题 。 要 解决 它 需 要 判断 发 送 端 是 否 已 经 等 待 了 足 
够 长 的 时 间 来 填补 接收 端的 空 扎 。 幸 运 的 是 ， 互 联网 中 严重 的 失 序 并 不 常见 [J03]， 因 此 将 
dupthresh 设 为 相对 较 小 值 (如 缺 省 值 为 3 ) 就 能 处 理 绝 大 部 分 情况 。 即 便 如 此 ， 还 是 有 很 
多 研究 致力 于 调整 TCP 行为 来 应 对 严重 失 序 [LLY07]。 有 些 方法 可 动态 调整 dupthresh， 如 
Linux 的 TCP 实现 。 


148.2 ”重复 


尽管 出 现 得 比较 少 , 但 他 协议 也 可 能 出 现 将 单个 包 传 输 多 次 的 情况 。 例 如 ， 当 链 路 层 
网 络 协议 执行 一 次 重 传 ， 并 生成 同一 个 包 的 两 个 副本 。 当 重 
复生 成 时 ，TCP 可 能 出 现 混 淆 。 考 虑 图 14-14 中 的 情况 , 包 3 
重复 生成 三 个 副本 。 

从 图 中 可 看 到 ， 包 3 的 多 次 重复 会 使 得 接收 端 生成 一 
系列 的 重复 ACK， 这 足以 触发 伪 快 速 重 传 ， 使 得 非 SACK 
发 送 端 误 认为 包 5 与 包 6 更 早 到 达 。 利 用 SACK (特别 是 
DSACK)， 就 可 以 简单 地 忽略 这 个 问题 。 采 用 DSACK， 每 个 
A3 的 重复 ACK 都 包含 报 文 段 3 已 成 功 接收 的 信息 ， 并 且 没 
有 包含 失 序 数据 信息 ， 意 味 着 到 达 的 包 (或 ACK) 一 定 是 重 
复数 据 。TCP 通常 都 可 防止 此 类 伪 重 传 。 


图 14-14 网 络 中 的 包 重 复 会 引 
149 目的 度量 起 重复 ACK， 从 而 
从 前 面 的 讨论 中 我 们 看 到 ，TCP 能 不 断 “ 学 习 ” 发 送 端 造成 伪 快 速 重 传 


与 接收 端 之 间 的 链 路 特征 。 学 习 的 结果 显示 为 发 送 端 记 录 一 

些 状态 变量 ， 如 srtt 和 rttvar。 一 些 TCP 实现 也 记录 一 段 时 间 内 已 出 现 的 失 序 包 的 估计 值 。 
一 般 来 说 ， 一 旦 该 连接 关闭 ， 这 些 学 习 结 果 也 会 丢失 ， 即 与 同一 个 接收 端 建立 一 个 新 的 TCP 
连接 后 ， 它 必须 从 头 开始 获得 状态 变量 值 。 

较 新 的 TCP 实现 维护 了 这 些 度量 值 ， 即 使 在 连接 断 开 后 ， 也 能 保存 之 前 存在 的 路 由 或 
转发 表 项 ， 或 其 他 的 一 些 系统 数据 结构 。 当 创立 一 个 新 的 连接 时 ， 首 先 查 看 数据 结构 中 是 否 
存在 与 该 目的 端的 先前 通信 信息 。 如 果 存 在 ， 则 选择 较 近 的 信息 ， 据 此 为 srtt、rttvar 以 及 
其 他 变量 设 初 值 。 在 TCP 连接 关闭 前 ， 可 更 新 统计 数据 ， 通 过 替换 现存 数据 或 其 他 方式 的 
更 新 来 实现 。 在 Linux 2.6 中 ， 变 量 值 更 新 为 现存 值 中 的 最 大 值 和 最 近 测 量 的 数据 。 可 通过 
iproute2[IPR2] 的 相关 工具 来 查看 这 些 变量 值 : 

Linux? ip route show cache 132.239.50.184 

132.239.50.184 from 10.0.0.9 tos 0x10 via 10.0.0.1 dev eth0 

cache mtu 1500 rtt 29ms rttvar 29ms cwnd 2 advmss 1460 hoplimit 64 

该 命令 利用 特殊 的 DSCP 值 (16， 表 示 CS2， 但 值 为 0x10 代表 采用 较 旧 的 “ToS”) 显 

示 了 之 前 连接 存储 的 信息 ， 本 地 系统 和 132.239.50.184 之 间 采 用 IPv4， 下 一 跳 为 10.0.0.1， 


网 络 设备 为 eht0。 我 们 可 以 看 到 包 大 小 信息 (由 PMTUD 得 到 路 径 MTU， 由 远 端 告知 


MSS)、 最 大 跳 步 数 (针对 IPv6， 这 里 没有 用 到 )、srtt 和 rttvar 的 值 ， 以 及 第 16 章 中 会 讨论 
的 拥塞 控制 信息 如 cwnd。 





686 


488 #14 = 





14.10 Brae 


当 TCP 超 时 重 传 ， 它 并 不 需要 完全 重 传 相同 的 报 文 段 。TCP 允许 执行 重新 组 包 
(repacketization)， 发 送 一 个 更 大 的 报 文 段 来 提高 性 能 。( 通 常 该 更 大 的 报 文 段 不 能 超过 接收 
端 通告 的 MSS， 也 不 能 大 于 路 径 MTU.) 允许 这 样 做 的 原因 在 于 ，TCP 是 通过 字 节 号 来 识别 
发 送 和 接收 的 数据 ， 而 非 报 文 段 (或 包 ) 号 。 

TCP 能 重 传 一 个 与 原 报 文 段 不 同 大 小 的 报 文 段 ， 这 从 一 定 意义 上 解决 了 重 传 二 义 性 问 
题 。STODER[TZZ05] 就 是 基于 该 思想 ， 采 用 重新 组 包 的 方法 来 检测 伪 超 时 。 

我 们 可 以 很 容易 地 观察 到 重新 组 包 的 过 程 。 我 们 采用 sock 程序 作为 服务 器 ， 将 其 连接 
至 Telnet。 首 次 我 们 输入 一 行 信息 “hello there”。 这 就 生成 了 一 个 13 字 节 的 数据 段 ， 包 括 
回 车 换行 在 内 。 接 着 断 开 网 络 连接 ， 输 入 “1line number 2”( 14 字 节 ， 包 括 换行 )。 然 后 在 等 
待 约 45 秒 后 ， 输 入 “and 3”， 之 后 关闭 连接 ， 


Linux% telnet 169.229.62.97 6666 


hello there (first line gets sent OK) 

(then we disconnect the Ethernet cable) 
line number 2 (this line gets retransmitted) 
and 3 (reconnect Ethernet) 


4] telnet> quit 
通过 tepdump:t 我 们 可 以 看 到 : 
1 19:51:47.674418 IP 10.0.0.7.1029 > 169.229.62.97.6666: 


P 1:14(13) ack 1 win 5840 一 一 一 "hello there\r\n" 
<nop,nop,timestamp 2343578137 596377728> 


2 19:51:47.788992 IP 169.229.62.97.6666 > 10.0.0.7.1029: 
. ack 14 win 58254 <nop,nop,timestamp 596378252 2343578137> 





3 19252:35.130837 IP 10.0.0.7.1029 > 169.229.62.97.6666: 
FP 29:36(7) ack 1 win 5840 "and 3\r\n" 
<nop,nop,timestamp 2343602439 596378252> 


4 19:52:35.146358 IP 169.229.62.97.6666 > 10.0.0.7.1029: 
. ack 14 win 58254 
<nop,nop,timestamp 596382987 2343578137,nop,nop, 
sack sack 1 {29:36}> 


5 e T ge ae > 169.229.62.97.6666: “line number2\r\n 
i ac win 
| 
<nop,nop,timestamp 2343604633 596382987> and3 


6 19:52:39.429228 IP 169.229.62.97.6666 > 10.0.0.7.1029: 
- ack 37 win 58248 <nop,nop,timestamp 596383416 2343604633> 


7 19:52:39.429696 IP 169.229.62.97.6666 > 10.0.0.7.1029: 
F 1:1(0) ack 37 win 58254 
<nop,nop,timestamp 596383416 2343604633> 


8 19:52:39.430119 IP 10.0.0.7.1029 > 169.229.62.97.6666: 
. ack 2 win 5840 <nop,nop,timestamp 2343604641 596383416> 


在 分 析 结 果 中 ， 省 略 了 初始 SYN 交换 过 程 。 前 两 个 报 文 段 包含 数据 字符 串 “ hello 
there” 及 其 确认 信息 。 紧 接着 的 包 并 非 有 序 : 它 从 序列 号 29 开始 ， 包 含 字符 串 “ and 3”(7 
个 字 节 )。 它 返回 的 ACK 414 ACK & 14, 但 SACK 块 的 相对 序列 号 为 {29，36}。 中 间 的 
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数据 已 丢失 。TCP 采用 一 个 更 大 的 包 来 重 传 ， 包 含 序 列 号 14 ~ 36。 因 此 ， 我 们 可 以 看 到 序 
列 号 14 数据 的 重 传导 致 了 一 次 重新 组 包 ， 形 成 了 22 字 节 的 较 大 包 来 传输 。 有 趣 的 是 ， 包 中 
重复 包含 了 SACK 块 中 的 数据 ， 同 时 也 将 FIN 位 字段 置 位 ， 表 明 这 是 连接 关闭 前 最 后 传输 的 
数据 。 


14.11 与 TCP 重 传 相关 的 攻击 
F 有 一 类 DoS 攻击 称 为 低速 率 DoS 攻击 [KK03]。 在 这 类 攻击 中 ， 攻 击 者 向 网 关 或 主机 
发 送 大 量 数据 ， 使 得 受害 系统 持续 处 于 重 传 超时 的 状态 。 由 于 攻击 者 可 预知 受害 TCP 何 时 
启动 重 传 ， 并 在 每 次 重 传 时 生成 并 发 送 大 量 数据 。 因 此 ， 受 害 TCP 总 能 感知 到 拥塞 的 存在 ， 
根据 Karn 算法 不 断 减 小 发 送 速率 并 退 避 发 送 ， 导 致 无 法 正常 使 用 网 络 带宽 。 针 对 此 类 攻击 
的 预防 方法 是 随机 选择 RTO， 使 得 攻击 者 无 法 预知 确切 的 重 传 时 间 。 

与 DoS 相关 但 不 同 的 一 种 攻击 为 减 慢 受害 TCP 的 发 送 ， 使 得 RTT 估计 值 过 大 。 这 样 受 
害 者 在 丢 包 后 不 会 立即 重 传 。 相 反 的 攻击 也 是 有 可 能 的 : 攻击 者 在 数据 发 送 完成 但 还 未 到 达 
接收 端 时 伪造 ACK。 这 样 攻击 者 就 能 使 受害 TCP 认为 连接 的 RTT 远 小 于 实际 值 ， 导 致 过 分 
发 送 ， 造 成 大 量 的 无 效 传输 。 
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本 章 详细 讨论 了 TCP 超时 和 重 传 策略 。 第 一 个 例子 描述 了 当 TCP 需要 发 送 一 个 数据 包 
时 ， 简 单 地 暂时 断 开 网 络 ， 导 致 重 传 计 时 器 超时 触发 了 一 次 超时 重 传 。 每 次 重 传 都 在 之 前 一 
次 传输 的 两 倍 时 长 后 被 成 功 接收 ， 形 成 二 进 制 指数 退 避 ， 即 Karn 算法 的 第 二 部 分 。 

TCP 测量 RTT 并 用 这 些 测量 值 记录 平滑 的 RTT 与 均值 偏差 估计 值 ， 用 这 两 个 估计 值 
计算 新 的 重 传 超时 值 。 在 不 采用 时 间 戳 选项 的 情况 下 ，TCP 在 每 个 数据 窗口 只 能 测量 一 个 
RTT. Karn 算法 通过 不 测量 重 传 报 文 段 的 RTT 样本 值 来 避免 重 传 二 义 性 问题 。 现 在 的 大 部 
分 TCP 版 本 都 使 用 时 间 戳 选项 ， 使 得 每 个 报 文 段 都 能 单独 测量 。 时 间 惟 选项 即使 在 包 失 序 
或 包 重 复 的 情况 下 也 能 很 好 地 工作 。 

我 们 还 讨论 了 快速 重 传 算法 ， 它 在 计时 器 没有 超时 的 情况 下 就 能 被 触发 。 该 算法 可 有 效 
地 (并 最 常用 ) 填补 由 丢 包 引起 的 空缺 。 结 合 选择 确认 可 更 好 地 提高 算法 性 能 。 选 择 确认 在 
ACK 中 携带 其 他 的 信息 ， 人 允许 发 送 端 在 每 个 RTT 内 修补 多 个 空缺 ， 在 某 些 环境 下 可 有 效 提 
高 传输 性 能 。 

如 果 RTT 测量 值 小 于 连接 的 实际 值 ， 就 可 能 发 生 伪 重 传 。 在 这 种 情况 下 ,， 若 TCP 的 等 
待 时 间 稍 长 ，( 不 必要 的 ) 重 传 就 可 能 不 会 发 生 。 针 对 伪 超时 问题 提出 了 很 多 算法 。DSACK 
需要 等 到 接收 到 重复 报 文 段 的 ACK, Eifel 检测 方法 依据 TCP 时 间 戳 ， 但 它 的 响应 速度 能 比 
DSACK 更 快 ， 这 是 因为 它 是 根据 超时 前 所 发 送 报 文 段 返回 的 ACK 来 检测 伪 超时 的 。F-RTO 
与 Eifel 算法 类 似 ， 但 不 需要 时 间 惟 。 它 使 得 发 送 端 在 判断 出 现 伪 超 时 后 发 送 新 数据 。 以 上 
这 些 检 测算 法 都 需要 结合 使 用 响应 算法 ， 我 们 讨论 到 的 响应 算法 主要 是 Eifel 响应 算法 。 它 
在 延迟 大 幅 增长 的 情况 下 《〈 和 否则 对 超时 不 做 任何 响应 )， 会 重新 设置 RTT 和 RTT 变化 估计 值 。 

我 们 也 讨论 了 TCP 怎样 存储 连接 状态 ， 怎 样 重新 组 包 ， 以 及 相关 攻击 ， 包 括 使 得 TCP 
过 分 被 动 或 过 分 积极 。 在 第 16 章 讨 论 TCP 拥塞 控制 时 ， 我 们 会 看 到 更 多 的 此 类 攻击 及 其 造 
成 的 影响 。 
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TCP/IP Illustrated, Volume 1: The Protocols, Second Edition 


TCP 数据 流 与 窗口 管理 





15.1 引言 


第 13 章 介绍 了 TOP 连接 的 建立 和 终止 ， 第 14 章 则 讨论 了 TCP 怎样 利用 丢失 数据 的 重 
传 来 保证 传输 可 靠 性 。 下 面 我 们 探讨 TCP 的 动态 数据 传输 ， 首 先 关 注 交 互 式 连接 ， 接 着 介 
绍 流量 控制 以 及 窗口 管理 规程 。 批 量 数据 传输 中 的 拥塞 控制 策略 (参见 第 16 章 ) 也 包含 了 相 
应 的 窗口 管理 机 制 。 

“交互 式 ”TCP 连接 是 指 ， 该 连接 需要 在 客户 端 和 服务 器 之 间 传 输 用 户 输入 信息 ， 如 按 
键 操作 、 短 消息 、 操 作 杆 或 鼠标 的 动作 等 。 如 果 采 用 较 小 的 报 文 段 来 承载 这 些 用 户 信息 ， 那 
么 传输 协议 需要 耗费 很 高 的 代价 ， 因 为 每 个 交换 分 组 中 包含 的 有 效 负载 字 节 较 少 。 反 之 ， 报 
文 段 较 大 则 会 引入 更 大 的 延 时 ， 对 延迟 敏感 类 应 用 (如 在 线 游戏 、 协 同 工 具 等 ) 造成 负面 影 
响 。 因 此 我 们 需要 权衡 相关 因素 ， 找 到 折 中 方法 。 

在 讨论 交互 式 通信 的 相关 问题 后 ， 会 介绍 TCP 流量 控制 机 制 。 它 通过 动态 调节 窗口 大 
小 来 控制 发 送 端的 操作 ， 确 保 接收 端 不 会 溢出 。 这 个 方法 主要 用 于 批量 数据 传输 ( 即 非 交 互 
式 通 信 )， 但 对 交互 式 应 用 也 同样 有 效 。 在 第 16 章 我 们 会 看 到 ， 流 量 控制 的 思想 也 可 以 扩展 
应 用 于 其 他 问题 ， 不 仅 可 以 保护 接收 端 免 于 溢出 ， 还 可 处 理 中 间 传 输 网 络 的 拥塞 问题 。 


15.2 ”交互 式 通信 


在 一 定时 间 内 ， 互 联网 的 不 同 部 分 传输 的 网 络 流量 (通常 以 字 节 或 包 来 计算 ) 也 存在 相 
当 大 的 差异 。 例 如 ， 局 域 网 与 广域网 以 及 不 同 网 站 之 间 的 流量 都 会 有 所 不 同 。TCP 流量 研究 
表明 ， 通 常 90% 或 者 更 多 的 TCP 报 文 段 都 包含 大 批量 数据 (如 Web、 文 件 共 享 、 电 子 邮件 、 
备份 )， 其 余部 分 则 包含 交互 式 数 据 (如 远程 登录 、 网 络 游 戏 )。 批 量 数据 段 通常 较 大 (1500 
字 节 或 更 大 )， 而 交互 式 数 据 段 则 会 比较 小 ( 几 十 字 节 的 用 户 数据 )。 

对 于 使 用 相同 协议 以 及 封包 格式 的 数据 ，TCP 都 会 处 理 ， 但 执行 的 算法 有 所 不 同 。 在 
本 节 中 我 们 会 讨论 TCP 如 何 传输 交互 式 数据 ， 以 ssh (安全 外 壳 ) 应 用 为 例 。 安 全 外 这 协议 
[RFC4251] 是 具备 较 强 安全 性 (基于 密码 学 的 加 密 和 认证 ) 的 远程 登录 协议 。 它 已 经 基本 取 
代 了 早期 的 UNIX rlogin 和 Telnet， 因 为 这 些 远程 登录 服务 都 存在 安全 隐患 。 

通过 对 ssh 的 探讨 ， 我 们 会 了 解 延 时 确认 是 怎样 工作 的 ， 以 及 Nagle 算法 怎样 实现 减少 
广域网 中 较 小 包 的 数目 。 同 样 的 算法 也 可 以 用 于 其 他 远程 登录 应 用 ， 如 Telnet, rlogin 和 微 
软 终端 服务 。 

对 一 个 ssh 连接 ， 观 察 当 我 们 输入 一 个 交互 命令 后 的 数据 流 。 客 户 端 获取 用 户 输入 信 
息 ， 然 后 将 其 传 给 服务 器 端 。 服 务 器 对 命令 进行 解释 并 生成 响应 返回 给 客户 端 。 客 户 端 对 其 
传输 数据 加 密 ， 意 味 着 用 户 输入 的 信息 在 通过 连接 传送 前 已 经 进行 了 加 密 (参见 第 18 章 )。 
即使 传输 数据 被 和 截获， 窃听 者 也 很 难 获得 用 户 输入 信息 的 明文 。 客 户 端 支持 多 种 加 密 算 法 
和 认证 方法 。 它 也 支持 一 些 新 的 特性 ， 如 隧道 技术 实现 对 其 他 协议 的 封装 (参见 第 3 章 及 
[RFC4254])。 
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许多 TCP/IP 的 初学 者 会 惊奇 地 发 现 ， 每 个 交互 按键 通常 都 会 生成 一 个 单独 的 数据 包 。 
也 就 是 说 ， 每 个 按键 是 独立 传输 的 (每 次 一 个 字符 而 非 每 次 一 行 )。 另 外 ，ssh 会 在 远程 系统 
(服务 器 端 ) 调用 一 个 shell (命令 解释 器 )， 对 客户 端的 输入 字符 做 出 回 显 。 因 此 ， 每 个 输入 
的 字符 会 生成 4 个 TCP 数据 段 : 客户 端的 交互 击 键 输入 、 服 务 器 端 对 击 键 的 确认 、 服 务 器 端 
生成 的 回 显 、 客 户 端 对 该 回 显 的 确认 (参见 图 15-1a)。 

通常 ， 第 2 和 第 3 段 可 以 合并 ， 如 图 15-1b 所 示 ， 可 将 对 击 键 的 确认 与 回 显 一 并 传送 。 


下 至 节 会 介绍 这 种 方法 ( 称 为 捕 带 延 时 确认 )。 692 
客户 端 服务 端 客户 端 服务 端 
一 击 键 ~ — it > 
数据 字 节 _ 服 务 器 > 数据 字 节 _ 服 务 器 > 
数据 字 节 确认 
一 回 显 一 数据 字 节 回 显 一 回 显 一 
一 显示 一 ee 一 显示 一 上 一 数据 字 节 确认 
辐 显 字 节 确认 回 显 字 节 确认 


a) b) 


15-1 a) 对 一 次 交互 击 键 的 远程 回 显 ， 一 种 可 行 的 方法 是 将 对 击 键 的 确认 与 回 
显 包 各 自 独 立 发 送 。b) 典型 TCP 则 将 两 者 结合 传输 


我 们 以 ssh 为 例 的 原因 在 于 ， 对 从 客户 端 到 服务 器 键入 的 每 个 字符 都 会 生成 一 个 独立 的 
包 。 然 而 ， 若 用 户 的 输入 速度 较 快 ， 每 个 包 可 能 包含 多 个 字符 。 图 15-2 显示 了 在 ssh 连接 至 
Linux 服务 器 中 输入 date 命令 ， 利 用 Wireshark 获得 的 数据 流 。 





图 15-2 在 已 建立 的 ssh 连接 中 输入 date 命令 ，TCP 数据 分 组 的 传输 情况 


如 图 15-2 所 示 ， 包 1 包含 了 客户 端 到 服务 器 端的 命令 字符 4。 包 2 为 对 字符 d 的 确认 和 
回 显 (如 图 15-1 中 将 两 段 结合 传送 )。 包 3 为 对 回 显 字符 d 的 确认 。 同 理 , 包 4 ~ 6 对 应 字 
Fa, 包 7 ~ 9 对 应 字符 t， 包 10 ~ 12 对 应 字符 e。 包 13 ~ 15 则 对 应 回 车 键 。 在 包 3 ~ 4、 [693 
6~7、9 ~ 10 和 12 ~ 13 之 间 的 时 间 差 为 人 工 输 入 每 个 字符 的 延迟 ， 这 里 特意 设置 得 较 长 
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(41.5 秒 )。 

注意 到 包 16 ~ 19 与 前 面 的 包 稍 有 差异 ， 包 长 度 从 48 字 节 变 为 64 字 节 。 包 16 包含 了 
服务 器 端 对 date 命令 的 输出 。 这 64 字 节 的 数据 是 对 下 面 28 个 明文 (未 加 密 ) 字符 的 加 密 
结果 : 

Wed Dec 28 22:47:16 PST 2005 


加 上 最 后 的 回 车 和 换行 符 。 下 一 个 从 服务 器 端 发 送 至 客户 端的 包 ( 包 18 ) 包含 了 服务 器 主机 
对 客户 的 命令 提示 符 : Linux%。 包 19 为 对 该 数据 的 确认 。 

图 15-3 描述 与 图 15-2 相同 的 传输 情况 ， 只 是 细 化 了 TCP 层 的 信息 ， 可 以 更 清晰 地 看 到 
TCP 怎样 进行 确认 以 及 ssh 使 用 的 包 大 小 。 包 1 (包含 字符 d) 的 相对 序列 号 从 0 开始 。 包 2 
是 对 图 中 包 1 的 确认 ，ACK 号 设 为 48， 为 上 次 成 功 接收 字 节 的 序列 号 加 1。 包 2 也 包含 了 
服务 器 至 客户 端的 对 d 字符 的 回 显 ， 字 节 序 列 号 为 0。 包 3 为 客户 端 对 该 回 显 的 确认 ，ACK 
号 设 为 48。 可 以 看 到 ， 该 连接 包含 了 两 个 序列 号 流 个 是 从 客户 端 至 服务 器 ， 另 一 个 为 
相反 方向 。 在 介绍 窗口 通告 时 将 会 详细 讨论 这 一 问题 。 
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图 15-3 与 图 15-2 相同 ， 只 是 这 里 禁用 了 ssh 的 协议 解码 ， 因 此 可 以 看 到 TCP 序列 号 信息 。 注 意 到 除 
了 最 后 两 个 包 外 ， 其 他 包 都 为 48 字 节 ， 该 长 度 与 ssh 使 用 的 加 密 算法 有 关 (参见 第 18 章 ) 


另外 我 们 也 发 现 ， 每 个 带 数 据 (长 度 不 为 0) 的 包 都 将 PSH 置 位。 之 前 提 到 过 ， 该 标志 
位 通常 表示 发 送 端 缓存 为 空 。 也 就 是 说 ， 当 PSH 置 位 的 数据 包 发 送 完成 后 ， 发 送 端 没有 其 
他 数据 包 需 要 传输 。 


15.3” 延 时 确认 


在 许多 情况 下 ，TCP 并 不 对 每 个 到 来 的 数据 包 都 返回 ACK, FIA TCP 的 累积 ACK F 
Br (参见 第 12 章 ) 就 能 实现 该 功能 。 累 积 确认 可 以 允许 TCP 延迟 一 段 时 间 发 送 ACK， 以 便 
将 ACK 和 相同 方向 上 需要 传 的 数据 结合 发 送 。 这 种 撒 带 传输 的 方法 经 常用 于 批量 数据 传输 。 
显然 ，TCP 不 能 任意 时 长 地 延迟 ACK; 否则 对 方 会 误 认为 数据 丢失 而 出 现 不 必要 的 重 传 。 


注意 主机 需求 RFC [RFC1122] 指出 ，TCP 实现 ACK 延迟 的 时 延 应 小 于 500ms。 
实践 中 时 延 最 大 取 200ms。 


采用 延 时 ACK 的 方法 会 减少 ACK 传输 数目 ， 可 以 一 定 程度 地 减轻 网 络 负载 。 对 于 批 


TCP XER HTP 495 


量 数据 传输 通常 为 2 : 1 的 比例 。 基 于 不 同 的 主机 操作 系统 ， 延 迟 发 送 ACK 的 最 大 时 延 可 以 
动态 配置 。Linux 使 用 了 一 种 动态 调节 算法 ， 可 以 在 每 个 报 文 段 返回 一 个 ACK ( 称 为 “快速 
确认 ”模式 ) 与 传统 延 时 ACK 模式 间 相 互 切 换 。Mac OS X 中， 可 以 改变 系统 变量 net.inet. 
tep.delayed_ack 值 来 设置 延 时 ACK。 可 选 值 如 下 : 禁用 延 时 〈 设 为 0 )， 始 终 延 时 GRA 1), 
每 隔 一 个 包 回 复 一 个 ACK ( 设 为 2 )， 自 动 检测 确认 时 间 ( 设 为 3)。 默 认 值 为 3。 最 新 的 
Windows 版 本 中 ， 注 册 表 项 


HKLM\SYSTEM\CurrentControlSet \Services\Tcpip\Parameters\Interfaces\IG 


中 ， 每 个 接口 的 全 局 唯一 标识 (GUID) 都 不 同 (IG 表示 被 引用 的 特定 网 络 接口 的 GUID )。 
TepAckFrequency {A (需要 被 添加 ) 可 以 设 为 0 ~ 255, 默认 为 2。 它 代表 延 时 ACK 计时 器 
超时 前 在 传 的 ACK 数目 。 将 其 设 为 1 表明 对 每 个 收 到 的 报 文 段 都 生成 相应 的 ACK. ACK it 
时 器 值 可 以 通过 TepDelAckTicks 注册 表 项 控制 。 该 值 可 设 为 2 ~ 6， 默 认为 2。 它 以 百 毫秒 
为 单位 ， 表 明 在 发 送 延 时 ACK 前 要 等 待 百 毫秒 数 。 

之 前 提 到 过 ， 通 常 TCP 在 某 些 情况 下 使 用 延 时 ACK 的 方法 ， 但 时 延 不 会 很 长 。 在 第 16 
章 中 大 量 采 用 了 延 时 ACK 的 方法 ， 我 们 将 会 看 到 TCP 怎样 在 处 理 批量 数据 的 大 数据 包 传输 
中 实现 拥塞 控制 。 在 小 数据 包 传 输 中 ， 如 交互 式 应 用 ， 需 要 采用 另外 的 算法 。 将 该 算法 与 延 
时 ACK 结合 使 用 ， 如 果 处 理 不 好 ， 反 而 会 导致 性 能 降低 。 下 面 我 们 详细 讨论 该 算法 。 


15.4 Nagle 算法 


从 前 面 的 小 节 中 可 以 知道 ， 在 ssh 连接 中 ， 通常 单 次 击 键 就 会 引发 数据 流 的 传输 。 如 
果 使 用 IPv4， 一 次 按键 会 生成 约 88 字 节 大 小 的 TCP/IPv4 包 (使 用 加 密 和 认证 ) : 20 字 节 的 
IP 头 部 ，20 字 节 的 TCP AR (假设 没有 选项 )， 数 据 部 分 为 48 字 节 。 这 些小 包 (PRA 
报 (tinygram)) 会 造成 相当 高 的 网 络 传输 代价 。 也 就 是 说 ， 与 包 的 其 他 部 分 相 比 ， 有 效 的 应 
用 数据 所 占 比 例 其 微 。 该 问题 对 于 局 域 网 不 会 有 很 大 影响 ， 因 为 大 部 分 局 域 网 不 存在 拥塞 ， 
而 且 这 些 包 无 须 传输 很 远 。 然 而 对 于 广域网 来 说 则 会 加 重 拥塞 ， 严 重 影响 网 络 性 能 。John 
Nagle 在 [RFC0896] 中 提出 了 一 种 简单 有 效 的 解决 方法 ， 现 在 称 其 为 Nagle 算法 。 下 面 首先 
介绍 该 算法 是 怎样 运行 的 ， 接 着 我 们 会 讨论 结合 延 时 ACK 方法 使 用 时 可 能 出 现 的 一 些 缺 陷 
和 问题 。 

Nagle 算法 要 求 ， 当 一 个 TCP 连接 中 有 在 传 数据 ( 即 那些 已 发 送 但 还 未 经 确认 的 数据 )， 
小 的 报 文 段 (长 度 小 于 SMSS) 就 不 能 被 发 送 ， 直 到 所 有 的 在 传 数据 都 收 到 ACK. FFA, 在 
收 到 ACK Ja, TCP 需要 收集 这 些小 数据 ， 将 其 整合 到 一 个 报 文 段 中 发 送 。 这 种 方法 迫使 
TCP 遵循 停 等 ( stop-and-wait) 规程 一 一 只 有 等 接收 到 所 有 在 传 数据 的 ACK 后 才能 继续 发 
送 。 该 算法 的 精妙 之 处 在 于 它 实 现 了 自 时 钟 ( self-clocking) 控制 : ACK 返回 越 快 ,数据 传 
输 也 越 快 。 在 相对 高 延迟 的 广域网 中 ， 更 需要 减少 微型 报 的 数目 ， 该 算法 使 得 单位 时 间 内 发 
送 的 报 文 段 数目 更 少 。 也 就 是 说 ，RTT 控制 着 发 包 速 率 。 

从 图 15-3 中 可 以 看 到 ， 单 个 字 节 的 发 送 、 确 认 以 及 回 显 的 RTT 较 小 (15ms 以 下 )。 为 
更 快 地 生成 数据 ， 我 们 需要 每 秒 钟 输入 60 个 字符 以 上 。 这 意味 着 ， 当 两 台 主机 之 间 以 很 小 
的 RTT 传输 数据 时 ， 例 如 在 同一 个 局 域 网 中 ， 我 们 将 很 难看 到 该 算法 的 显著 效果 。 

为 了 显示 Nagle 算法 的 效果 ,我 们 比较 分 析 某 个 TCP 应 用 使 用 和 禁用 该 算法 的 行为 。 
我 们 对 一 个 ssh 版 本 的 客户 端 做 了 一 定 的 修改 。 利 用 一 个 RTT 相对 较 大 (24 190ms) 的 连接 ， 
就 可 以 看 出 区 别 。 首 先 观察 禁用 Nagle 算法 (ssh 默认 ) 的 情况 ， 如 图 15-4 所 示 。 
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15-4 ssh 分 析 文 件 显示 该 TCP 连接 RTT 约 为 1 90ms。Nagle 算法 被 禁用 。 数 据 和 ACK 结合 传输 ， 
19 个 包 传 输 持续 了 0.58s。 许 多 包 相 对 较 小 (48 字 节 的 用 户 数据 )。 纯 ACK (不 包含 数据 的 报 
文 段 ) 表明 服务 器 端的 输出 命令 已 被 客户 端 接收 处 理 


图 15-4 中 显示 的 传输 是 在 初始 的 认证 完成 以 后 、 登 录 会 话 开 始 时 记录 的 。 这 时 输入 
date 命令 ,我 们 看 到 共 捕 获 到 了 19 个 包 ， 整 个 传输 过 程 持续 了 0.58s。 共 有 5 个 ssh 请 求 包 ， 
7 个 ssh 应 答 包 ， 以 及 7 个 TCP 层 的 纯 ACK 包 (不 包含 数据 )。 下 面 我 们 将 在 使 用 Nagle 算 
法 的 情况 下 重复 探测 这 一 过 程 ( 即 在 相似 的 网 络 环境 下 )， 可 以 得 到 图 15-5。 
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Er 


图 15-5 RTT 为 190ms 并 启用 Nagle 算法 的 TCP 连接 的 ssh 传输 情况 。 请 求 和 响应 传输 规律 ， 紧 密 一 
致 。 整 个 传输 过 程 持续 了 0.80s, 共有 11 个 包 


可 以 看 到 图 15-5 中 的 包 数 目 要 少 于 图 15-4 ( 少 了 8 个 )。 另 外 一 个 明显 的 差异 是 ， 请 求 
和 响应 包 随 时 间 分 布 呈 一 定 的 规律 性 。 回 想 一 下 Nagle 算法 的 原理 ， 它 迫使 TCP 遵循 停 等 行 
为 模式 ， 因 此 TCP 发 送 端 只 有 在 接收 到 全 部 ACK 后 才能 继续 发 送 。 观 察 每 组 请 求 / 响应 的 
传输 时 刻 一 一 0.0、0.19、0.38 以 及 0.57， 我 们 可 以 发 现 它们 遵循 一 定 的 模式 : 每 两 个 间隔 为 
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190ms， 恰 为 连接 的 RTT。 每 发 送 一 组 请 求 和 响应 包 需 要 等 待 一 个 RTT， 这 就 加 长 了 整个 传 
输 过 程 (需要 0.80s 而 非 前 面 的 0.58s)。Nagle 算法 做 出 了 一 种 折 中 : 传输 的 包 数 目 更 少 而 长 
度 更 大 ， 但 同时 传输 时 延 也 更 长 。 从 图 15-6 中 可 以 更 清晰 地 看 出 差别 。 

15-6 显示 了 Nagle 算法 的 停 等 行为 。 左 侧 显示 双向 传输 ， 而 右 侧 使 用 Nagle 算法 ,使 
得 在 任 一 给 定时 刻 ， 只 有 一 个 方向 保持 传输 状态 。 





禁用 Nagle 算 法 使 用 Nagle 算 法 
图 15-6 比较 相似 环境 下 使 用 Nagle 算法 与 否 的 TCP 连接 情况 。 在 启用 Nagle 算法 的 情况 下 ， 在 任 一 
时 刻 最 多 只 有 一 个 包 在 传 。 这 样 可 以 减少 小 包 数 目 ， 但 同时 也 增 大 了 传输 时 延 


15.4.1 Œf} ACK 5 Nagle 算法 结合 


若 将 延 时 ACK 与 Nagle 算 法 直接 客户 端 服务 器 
AA, ARMATURE AR. aik icles aie 
考虑 如 下 情形 ， 客 户 端 使 用 延 时 ACK 方 请 求 
法 发 送 一 个 对 服务 器 的 请 求 ， 而 服务 器 ibe 
May fi 5 适合 在 同一 个 包 
AT mawu 一 | een 
从 图 中 可 以 看 到 ， 在 接收 到 来 自 服 。 awe | ES 
务 器 端的 两 个 包 以 后 ， 客 户 端 并 不 立即 cat Riche ater ed 
发 送 ACK， 而 是 处 于 等 待 状态 ， 希 望 有 ite a 更 多 的 响应 数据 包 


REA AK. AOL F, TCP 
在 接收 到 两 个 全 长 的 数据 包 后 就 应 返回 响应 数据 包 

一 个 ACK,， 但 这 里 并 非 如 此 。 在 服务 

器 端 ， 由 于 使 用 了 Nagle BIE, APMC ”图 15-7 Nagle 算 法 与 延 时 ACK 的 交互 。 可 能 会 形成 
到 ACK 前 都 不 能 发 送 新 数据 ， 因 为 任 一 一 个 短暂 的 死 锁 ， 一 直 持 续 到 延 时 ACK 计 
时 刻 只 允许 至 多 一 个 包 在 传 。 因 此 延 时 时 器 超时 
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ACK 45 Nagle 算法 的 结合 导致 了 某 种 程度 的 死 锁 (两 端 互相 等 待 对方 做 出 行动 ) [MMSV99] 
[MM01]。 幸 运 的 是 ， 这 种 死 锁 并 不 是 永久 的 ， 在 延 时 ACK 计时 器 超时 后 死 锁 会 解除 。 客 户 
端 即 使 仍然 没有 要 发 送 的 数据 也 无 需 再 等 待 ， 而 可 以 只 发 送 ACK 给 服务 器 。 然 而 ， 在 死 锁 
期 间 整 个 传输 连接 处 于 空闲 状态 ， 使 性 能 变 差 。 在 某 些 情况 下 ， 如 这 里 的 ssh 传输 ， 可 以 禁 
用 Nagle 算法 。 


15.4.2 ”禁用 Nagle 算法 


从 前 面 的 例子 可 以 看 到 ， 在 有 些 情 况 下 并 不 适用 Nagle 算法 。 典 型 的 包括 那些 要 求 时 延 
尽量 小 的 应 用 ， 如 远程 控制 中 鼠标 或 按键 操作 需要 及 时 送 达 以 得 到 快捷 的 反馈 。 另 一 个 例子 
是 多 人 网 络 游戏 ， 人 物 的 动作 需要 及 时 地 传送 以 确保 不 影响 游戏 进程 (也 不 致 影响 其 他 玩家 
的 动作 )。 

禁用 Nagle 算法 有 多 种 方式 ， 主 机 需求 RFC [RFC1122] 列 出 了 相关 方法 。 若 某 个 应 用 使 
用 Berkeley 套 接 字 API， 可 以 设置 TCP NODELAY 选项 。 另 外 ， 也 可 以 在 整个 系统 中 禁用 
该 算法 。 在 Windows 系统 中 ， 使 用 如 下 的 注册 表 项 : 


HKLM\SOFTWARE\Microsoft\MSMO\Parameters\TCPNoDelay 
这 个 双 字 节 类 型 的 值 必须 由 用 户 添 加 ， 应 将 其 设 为 1。 为 使 更 改 生效 ， 消 息 队 列 也 需要 重新 
设置 。 
15.5 ”流量 控制 与 窗口 管理 


回顾 一 下 第 12 章 中 提 到 过 ， 可 以 采用 可 变 滑动 窗口 来 实现 流量 控制 。 如 图 15-8 所 示 ， 
TCP 客户 端 和 服务 器 交互 作用 ,互相 提供 数据 流 的 相关 信息 ， 包 括 报 文 段 序列 号 、ACK 号 
和 窗口 大 小 〈 即 接收 端的 可 用 空间 )。 


服务 器 





图 15-8 每 个 TCP 连接 都 是 双向 的 。 数 据 传输 方向 的 另 一 端 会 返回 
ACK 及 其 窗口 通告 信息 。 反 向 亦 然 


15-8 中 两 个 大 的 箭头 表示 数据 流 方向 (TCP 报 文 段 的 传输 方向 )。 每 个 TCP 都 是 双向 
连接 ， 这 里 用 两 个 箭头 表示 ， 一 个 是 客户 端 至 服务 器 方向 (C 一 S)， 另 一 个 为 服务 器 至 客户 
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端 方向 (S 一 C)。 每 个 报 文 段 包 含 ACK 和 窗口 信息 ， 可 能 还 有 用 户 数据 。 根 据 数据 流传 输 
方向 的 不 同 ， 将 TCP 头 部 中 的 字段 标记 上 阴影 。 例 如 ， 在 C 一 S 方 向 的 数据 流 为 下 方 箭头 
的 报 文 段 ， 但 是 对 该 数据 的 ACK 和 窗口 信息 却 在 上 方 箭头 指示 的 报 文 段 中 。 每 个 TCP 报 文 
E (除了 连接 建立 之 初 的 包 交 换 ) 都 包含 一 个 有 效 的 序列 号 字段 、 一 个 ACK 号 或 确认 字段， 
以 及 一 个 窗口 大 小 字段 (包含 窗口 通告 信息 )。 

在 前 面 的 ssh 示例 中 ， 我们 看 到 的 窗口 通告 都 是 固定 的 ， 有 8320 字 节 、4220 字 节 ， 还 
AB 32 900 字 节 。 这 些 数值 表示 发 送 该 窗口 信息 的 通信 方 为 即将 到 来 的 新 数据 预 留 的 存储 空 
间 。 当 TCP 应 用 程序 空闲 时 ， 就 会 排队 处 理 这 些 数据 ， 致 使 窗口 大 小 字段 保持 不 变 。 当 系 
统 处 理 速度 较 慢 ， 或 者 程序 忙于 执行 其 他 操作 ， 到 来 的 数据 返回 ACK 后 ， 就 需要 排队 等 待 
被 读 取 或 “消耗 ”。 若 这 种 排队 状况 持续 ， 新 数据 的 可 用 存储 空间 就 会 减 小 ， 窗 口 大 小 值 
也 随 之 减 小 。 最 终 ， 若 应 用 程序 一 直 不 处 理 这 些 数 据 ，TCP 必须 采取 策略 使 得 发 送 端 完全 
停止 新 数据 的 发 送 ， 因 为 可 能 没有 空间 来 存储 新 数据 。 此 时 就 可 以 将 窗口 通告 设 为 0( 没 有 
空间 )。 

每 个 TCP 头 部 的 窗口 大 小 字段 表明 接收 端 可 用 缓存 空间 的 大 小 ， 以 字 节 为 单位 。 该 字段 
长 度 为 16 位 ， 但 窗口 缩放 选项 可 用 大 于 65 535 的 值 (参见 第 13 章 )。 报 文 段 发 送 方 在 相反 
方向 上 可 接受 的 最 大 序列 号 值 为 TCP 头 部 中 ACK 号 和 窗口 大 小 字段 之 和 (保持 单位 一 致 ) 。 


15.5.1 滑动 窗口 


TCP 连接 的 每 一 端 都 可 收发 数据 。 连 接 的 收发 数据 量 是 通过 一 组 窗口 结构 ( window 
structure) 来 维护 的 。 每 个 TCP 活动 连接 的 两 端 都 维护 一 个 发 送 窗口 结构 (send window 
structure) 和 接收 窗口 结构 (receive window structure)。 这 些 结构 与 第 12 章 中 描述 的 概念 窗 
口 结构 类 似 ， 这 里 我 们 将 详细 讨论 。 图 15-9 显示 了 一 个 假设 的 TCP 发 送 窗口 结构 。 


提供 窗口 
— (SND.WND ) == 






\ 





BRE 。_ 已 发 送 但 即将 发 送 直至 窗口 移动 
已 经 确认 a 未 经 确认 (可 用 窗口 ) 前 都 不 能 发 送 


[ws Ta 
左边 界 右边 界 
( SND.UNA ) ii ( SND.UNA + SND.WND ) 


图 15-9 TCP 发 送 端 滑动 窗口 结构 记录 了 已 确认 、 在 传 以 及 还 未 传 的 数据 的 序列 号 。 提 供 窗口 的 大 小 
是 由 接收 端 返回 的 ACK 中 的 窗口 大 小 字段 控制 的 


TCP 以 字 节 (而 非 包 ) 为 单位 维护 其 窗口 结构 。 在 图 15-9 中 ， 我 们 已 标号 为 2 ~ 11 字 
节 。 由 接收 端 通告 的 窗口 称 为 提供 窗口 (offered window)， 包 含 4 ~ 9 字 节 。 接 收 端 已 成 功 
确认 包括 第 3 字 节 在 内 的 之 前 的 数据 ， 并 通告 了 一 个 6 字 节 大 小 的 窗口 。 回 顾 第 12 章 ， 窗 
口 大 小 字段 相对 ACK 号 有 一 个 字 节 的 偏 移 量 。 发 送 端 计 算 其 可 用 窗口 ， 即 它 可 以 立即 发 送 
的 数据 量 。 可 用 窗口 计算 值 为 提供 窗口 大 小 减 去 在 传 (已 发 送 但 未 得 到 确认 ) 的 数据 值 。 变 
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Ht SND.UNA 和 SND.WND 分 别 记 录 窗 口 左边 界 和 提供 窗口 值 。SND.NXT 则 记录 下 次 发 送 
的 数据 序列 号 ， 因 此 可 用 窗口 值 等 于 (SND.UNA + SND.WND - SND.NXT)。 

随 着 时 间 的 推移 ， 当 接收 到 返回 的 数据 ACK， 滑 动 窗口 也 随 之 右 移 。 窗 口 两 端的 相对 
运动 使 得 窗口 增 大 或 减 小 。 可 用 三 个 术语 来 描述 窗口 左右 边界 的 运动 : 

1. 关闭 (close)， 即 窗口 左边 界 右 移 。 当 已 发 送 数 据 得 到 ACK 确认 时 ， 窗 口 会 减 小 。 

2. 打开 (open)， 即 窗口 右边 界 右 移 ， 使 得 可 发 送 数 据 量 增 大 。 当 已 确认 数据 得 到 处 理 ， 
接收 端 可 用 缓存 变 大 ， 窗 口 也 随 之 变 大 。 

3. 收缩 (shrink)， 即 窗口 右边 界 左 移 。 主 机 需求 RFC [RFC1122] 并 不 支持 这 一 做 法 ,但 
TCP 必须 能 处 理 这 一 问题 。15.5.3 节 的 糊涂 窗口 综合 征 中 举 了 一 个 例子 ,一 端 试 图 将 右边 界 
左 移 使 窗口 收缩 ,但 没有 成 功 。 

每 个 TCP 报 文 段 都 包含 ACK 号 和 窗口 通告 信息 ，TCP 发 送 端 可 以 据 此 调节 窗口 结 
构 。 窗 口 左 边界 不 能 左 移 ， 因 为 它 控制 的 是 已 确认 的 ACKS, 具有 累积 性 ， 不 能 返回 。 当 
得 到 的 ACK 号 增 大 而 窗口 大 小 保持 不 变 时 (通常 如 此 )， 我 们 就 说 窗口 向 前 “滑动 ” 。 若 随 
着 ACK 号 增 大 窗口 却 减 小 ， 则 左右 边界 距离 减 小 。 当 左右 边界 相等 时 ， 称 之 为 零 窗 口 。 此 
时 发 送 端 不 能 再 发 送 新 数据 。 这 种 情况 下 ，TCP 发 送 端 开始 探测 (probe) 对 方 窗口 (参见 
15.5.2 节 )， 伺 机 增 大 提供 窗口 。 

接收 端 也 维护 一 个 窗口 结构 ， 但 比 发 送 端 窗口 简单 。 该 窗口 结构 记录 了 已 接收 并 确认 的 
数据 ， 以 及 它 能 够 接收 的 最 大 序列 号 。 该 窗口 可 以 保证 其 接收 数据 的 正确 性 。 特 别 是 ， 接 收 
端 希望 避免 存储 重复 的 已 接收 和 确认 的 数据 ， 以 及 避免 存储 不 应 接收 的 数据 (超过 发 送 方 右 
窗口 边界 的 数据 )。 图 15-10 描述 了 接收 窗口 结构 。 


接收 窗口 
| 一 一 一 (RCV.WND ) 一 一 | 


X 
N 





RN 


一 已 接收 并 确认 一 |< 一 一 一 接收 后 将 会 保存 一 一 一 >|< 一 不 能 接收 一 > 


左边 界 右边 界 
(RCV.NXT ) (RCV.NXT + RCV.WND ) 
图 15-10 TCP 接收 端 滑动 窗口 结构 帮助 了 解 其 下 次 应 接收 的 数据 序列 号 。 
若 接 收 到 的 数据 序列 号 在 窗口 内 ， 则 可 以 存储 ， 否 则 丢弃 


与 发 送 端 窗口 一 样 ， 该 窗口 结构 也 包含 一 个 左边 界 和 右边 界 ， 但 窗口 内 的 字 节 (图 中 的 
4 ~ 9 字 节 ) 并 没有 区 分 。 对 接收 端 来 说 ， 到 达 序 列 号 小 于 左 窗口 边界 ( 称 为 RCVNXT)， 被 
认为 是 重复 数据 而 丢弃 ， 超 过 右边 界 ( RCV.WND + RCV.NXT) 的 则 超出 处 理 范围 ， 也 被 丢 
弃 。 注 意 到 由 于 TCP 的 累积 ACK 结构 ， 只 有 当 到 达 数 据 序列 号 等 于 左边 界 时 ， 数 据 才 不 会 
被 丢弃 ， 窗 口才 能 向 前 滑动 。 对 选择 确认 TCP 来 说 ,使 用 SACK 选项 ， 窗 口内 的 其 他 报 文 
段 也 可 以 被 接收 确认 ， 但 只 有 在 接收 到 等 于 左边 界 的 序列 号 数据 时 ， 窗 口才 能 前 移 (SACK 
的 更 多 细节 可 以 参见 第 14 章 )。 
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15.5.2” 零 窗口 与 TCP 持续 计时 器 


我 们 了 解 到 ，TCP 是 通过 接收 端的 通告 窗口 来 实现 流量 控制 的 。 通 告 窗口 指示 了 接收 
端 可 接收 的 数据 量 。 当 窗口 值 变 为 0 时， 可 以 有 效 阻 止 发 送 端 继 续 发 送 ， 直 到 窗口 大 小 恢复 
为 非 零 值 。 当 接收 端 重新 获得 可 用 空间 时 ， 会 给 发 送 端 传输 一 个 窗口 更 新 ( window update), 
告知 其 可 继续 发 送 数据 。 这 样 的 窗口 更 新 通常 都 不 包含 数据 (为 “ 纯 ACK”)， 不 能 保证 其 传 
输 的 可 靠 性 。 因 此 TCP 必须 有 相应 措施 能 处 理 这 类 丢 包 。 

如 果 一 个 包含 窗口 更 新 的 ACK 丢失 ， 通 信 双 方 就 会 一 直 处 于 等 待 状 态 : 接收 方 等 待 接 
收 数据 (已 将 窗口 设 为 非 零 值 )， 发 送 方 等 待 收 到 窗口 更 新 告知 其 可 继续 发 送 。 为 防止 这 种 死 
锁 的 发 生 ， 发 送 端 会 采用 一 个 持续 计时 器 间歇 性 地 查询 接收 端 ， 看 其 窗口 是 否 已 增长 。 持 续 
计时 器 会 触发 窗口 探测 (window probe) 的 传输 ， 强 制 要 求 接收 端 返 回 ACK (其 中 包含 了 窗 
口 大 小 字段 )。 主 机 需求 RFC [RFC1122] 建议 在 一 个 RTO 之 后 发 送 第 一 个 窗口 探测 ， 随 后 以 
指数 时 间 间 隔 发 送 (与 第 14 章 讨论 过 的 Karn 算法 中 的 “第 二 部 分 ”类 似 )。 

窗口 探测 包含 一 个 字 节 的 数据 ， 采 用 TCP 可 靠 传输 (丢失 重 传 )， 因 此 可 以 避免 由 窗口 
更 新 丢失 导致 的 死 锁 。 当 TCP 持续 计时 器 超时 ， 就 会 触发 窗口 探测 的 发 送 。 其 中 包含 的 一 
个 字 节 的 数据 是 否 能 被 接收 ， 取 决 于 接收 端的 可 用 缓存 空间 大 小 。 与 TCP 重 传 计时 器 (参见 
第 14 章 ) 类 似 ， 可 以 采用 指数 时 间 退 避 来 计算 持续 计时 器 的 超时 。 而 不 同 之 处 在 于 ， 通 常 
TCP 不 会 停止 发 送 窗口 探测 ， 由 此 可 能 会 放弃 执行 重 传 操 作 。 这 种 情况 可 能 导致 某 种 程度 的 
资源 耗 尽 ， 我 们 将 在 15.7 节 中 讨论 这 一 问题 。 


15.5.2.1 ”例子 

为 了 说 明 TCP 的 动态 窗口 调节 和 流量 控制 机 制 ， 我 们 建立 了 一 个 TCP 连接 ， 并 使 其 在 
处 理 接 收 到 的 数据 之 前 暂停 接收 。 本 实验 采用 了 Mac OS X 10.6 发 送 端 和 Windows 7 接收 
端 。 在 接收 端 运行 带 -P 选项 的 sock 程序 : 


C:\> sock -i -s -P 20 6666 


该 命令 使 得 接收 端 在 处 理 接收 到 的 数据 前 暂停 20s。 这 样 就 导致 接收 端的 通告 窗口 在 125 号 
包 处 开始 关闭 ， 如 图 15-11 所 示 。 

从 图 15-11 中 可 以 看 到 ， 在 接收 了 100 多 个 包 后 ,窗口 大 小 仍然 维持 在 64KB。 这 是 由 
于 自动 窗口 调节 算法 (参见 15.5.4 节 ) 默认 分 配 了 TCP 接收 端的 缓存 。 然 而 ， 随 着 可 用 缓存 
的 减少 ， 可 以 看 到 在 125 号 包 之 后 ， 窗 口 开始 减 小 。 随 着 大 量 的 ACK 到 达 ， 窗 口 进一步 减 
小 ， 每 个 到 达 的 ACK 号 都 增 大 2896 字 节 。 这 表明 接收 端 在 存储 这 些 数据 ， 但 应 用 程序 并 没 
有 处 理 。 如 果 我 们 进一步 观察 ,会 发 现 最 终 接收 端 已 经 没有 更 多 空间 来 存储 到 达 的 数据 ( 见 
A 15-12), 

从 图 15-12 中 可 以 看 到 ，151 号 包 耗 尽 了 327 字 节 大 小 的 窗口 ，Wireshark 显示 “ TCP 
窗口 满 ”(TCP Window Full). #4 200ms 后 ， 在 4.979s 时 刻 ， 零 窗口 通告 产生 ， 表 明 无 法 接 
收 新 的 数据 。 窗 口 最 后 的 可 用 空间 已 满 ， 接 收 端 应 用 程序 暂停 处 理 数据 ， 直 到 20.143s 时 刻 。 

收 到 零 窗口 通告 后 ， 发 送 端 每 隔 5s 共 发 送 了 三 次 窗口 探测 以 查看 窗口 是 否 打 开 。 在 20s 
时 刻 ， 接 收 端 开始 处 理 TCP 队列 中 的 数据 。 因 此 有 两 个 窗口 更 新 传送 至 发 送 端 ， 表 明 可 以 
继续 传输 数据 ( 64KB)。 窗 口 更 新 并 不 是 对 新 数据 的 确认 ， 而 只 是 将 窗口 右边 界 右 移 。 这 
时 ， 发 送 端 可 以 恢复 正常 的 数据 传输 。 
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Ack=30089 wins65535 
Ack=32985 Win=65535 
Ack=35881 win=65535 
Ack=38777 win=65535 
Ack=41673 win=65535 
Ack=44569 win=65535 
Ack=47465 win=65535 
Ack=50361 win=65535 
Ack=53257 win=65535 
Ack=56153 Win=65535 
Ack=58049 win=65535 
Ack=61945 win=65535 
Ack=64841 win=65535 
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128 0. 102534 
129 0.107267 
130 0.107578 
131 0.107778 
132 0.108664 
133 0.109498 
134 0.114609 


Ack=73529 win=58295 
Ack=76425 win=55399 
Ack=79321 win=52503 
Ack=82217 win=49607 
ACK=85113 win=46711 
Ack=88009 win=43815 
Ack=90905 win=40919 
135 0.115865 Ack=93801 win=38023 
136 0.118856 10. 0.1. 37 Ack=96697 Win=35127 ¥ 
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pause.td - Wireshark 
Ble, Edt. Wew. Go. Capture, Analyze Statistics, Telephony. Tools. Help... 


了 oo F 2 (B/S) 公 久 人 四 | 硬 国 驳 关 | 加 
Seq=l Ack=105385 Wine26439 LeriaO TSV=343880 TSER=949804 632 
SEq=1 Ack=10B281 win=23543 LensO TSV=343881 TSER=949804632 
Setl=1 Ack=111177 wine20647 Len=0 TSV=343881 TSER=949804632 
Seğ=1 Ack=114073 Win=17751 Len=0 TSv=343881 TSER=949804632 
Seq=1 Ack=116737 Win=15087 Len=0 TSV=343881 TSER=949804632 
Seqel Ack=119633 Win=12191 Len=0 TSV=343882 TSER=949804632 
Seq=l Ack=121257 Win=10567 Len=0 TSV=343882 TSER=949804632 
Seq=} Ack=123305 Win=8519 Len»0 TSV=343882 TSER=949804632 
Seq=1 Ack=125353 win=6471 Lens0 TSV=343882 TSER=949804632 
Seqal Ack=127401 Win=4423 Len=0 TSva343882 TSER=949804632 
Seq=1 Ack=129449 win=2375 Len=0 TSV=343883 TSER=949804532 


Sagl ack=131497 wWine327 Lenad TS 





EEN 0.125602 
140 0.126039 
141 0,126403 
142 0.126692 
143 0.127250 
144 0,127691 
145 0.127963 
146 0.128522 
247 0.128897 
148 0.129153 
149 0. ou 


Set A TE eee 


Wo wl a a 


NNNSNN YS 
Wow We Ww ud hy GO tN 
WW A i ke Go 


eeecesoce: 
PPP EEE EE 
Hd | 


See ae Sie Se 


ol 


161 20.142807 10.0. 20.0,1.37 TCP 53005 > 6666 [ACK] Seq=131824 Ack=-1 Win=131070 Len=1448 TSV=049804833 TSER=345964 
162 20.142833 16.0. 10.0.1.37 TCP 53005 > 6666 [ACK] Seq=133272 AcCks=t Win=131070 Len=1448 TSV=949804833 TSER=345884 
163 20,142867 10. 0. 1.33 10.0.1.37 TEP 53005 > 5666 [ACK] Saq=134720 Ackel WiN=131070 Lan=1448 TSve949804833 sees Ee # 


aio a 二 于 





图 15-12 接收 端 缓 存 已 满 。 当 接收 应 用 程序 再 次 开始 处 理 数据 时 ， 窗口 更 新 会 通知 发 送 端 可 继续 发 送 


从 图 15-11 和 图 15-12 中 可 以 总 结 出 以 下 几 点 : 
1. 发 送 端 不 必 传 输 整 个 窗口 大 小 的 数据 。 
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2. 接收 到 返回 的 ACK 的 同时 可 将 窗口 右 移 。 这 是 由 于 通告 窗口 是 和 该 报 文 段 中 的 ACK 
号 相关 的 。 

3. 窗口 大 小 可 能 减 小 ， 如 图 15-11 所 示 ， 但 窗口 右边 界 不 会 左 移 ， 以 此 避免 窗口 收缩 。 

4. 接收 端 不 必 等 到 窗口 满 才 发 送 ACK. 

此 外 ， 还 可 通过 观察 吞吐 量 随时 间 的 变化 函数 得 到 一 些 启 发 。 使 用 Wireshark 的 “统计 | 
TCP 流 图 | 吞吐 量 图 ”( Statistics | TCP Stream Graph | Throughput Graph) 功能 ， 可 以 得 到 图 
15813 所 示 的 时 间 序列 。 


TCP Graph 2: pause.td 10.0.1,33:53005 -> 10.0.1.37:6666 











图 15-13 ”使 用 相对 较 大 的 接收 缓存 ， 即 使 在 接收 端 应 用 处 理 数 据 前 也 能 传输 大 量 的 数据 


这 里 我 们 看 到 一 个 有 趣 的 现象 。 即 使 在 接收 端 处 理 任何 数据 前 ， 连 接 依然 能 达到 约 
1.3MB/s 的 吞吐 量 。 这 种 状况 一 直 持 续 到 约 0.10s 时 刻 。 之 后 ， 直 到 接收 端 开始 处 理 数据 前 
(在 20s 时 刻 后 )， 吞吐 量 基本 上 都 为 0。 


15.5.3 ”糊涂 窗口 综合 征 


基于 窗口 的 流量 控制 机 制 ， 尤 其 是 不 使 用 大 小 固定 的 报 文 段 的 情况 (如 TCP)， 可 能 会 
出 现 称 为 糊涂 窗口 综合 征 (Silly Window Syndrome, SWS) 的 缺陷 。 当 出 现 该 问题 时 ， 交 换 
数据 段 大 小 不 是 全 长 的 而 是 一 些 较 小 的 数据 段 [RFC0813]。 由 于 每 个 报 文 段 中 有 用 数据 相对 
于 头 部 信息 的 比例 较 小 ， 因 此 耗费 的 资源 也 更 多 ， 相 应 的 传输 效率 也 更 低 。 

TCP 连接 的 两 端 都 可 能 导致 SWS 的 出 现 : 接收 端的 通告 窗口 较 小 (没有 等 到 窗口 变 大 
才 通 告 ), 或 者 发 送 端 发 送 的 数据 段 较 小 (没有 等 待 将 其 他 数据 组 合成 一 个 更 大 的 报 文 段 )。 
要 避免 SWS 问题， 必须 在 发 送 端 或 接收 端 实现 相关 规则 。TCP 无 法 提前 预知 某 一 端的 行为 。 
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需要 遵循 以 下 规则 : 

1. 对 于 接收 端 来 说 ， 不 应 通告 小 的 窗口 值 。[RFC1122] 描述 的 接收 算法 中 ， 在 窗口 可 增 
至 一 个 全 长 的 报 文 段 ( 即 接收 端 MSS) 或 者 接收 端 缓 存 空 间 的 一 半 ( 取 两 者 中 较 小 者 ) 之 前 ， 
不 能 通告 比 当前 窗口 (可 能 为 0) 更 大 的 窗口 值 。 注 意 到 可 能 有 两 种 情况 会 用 到 该 规则 : 当 
应 用 程序 处 理 接收 到 的 数据 后 使 得 可 用 缓存 增 大 ， 以 及 TCP 接收 端 需要 强制 返回 对 窗口 探 
测 的 响应 。 

2. 对 于 发 送 端 来 说 ， 不 应 发 送 小 的 报 文 段 ， 而 且 需 由 Nagle 算法 控制 何 时 发 送 。 为 避免 
SWS 问题 ， 只 有 至 少 满足 以 下 条 件 之 一 时 才能 传输 报 文 段 : 

(a) 全 长 (发 送 MSS 字 节 ) 的 报 文 段 可 以 发 送 。 

(b) 数据 段 长 度 三 接收 端 通告 过 的 最 大 窗口 值 的 一 半 的 ， 可 以 发 送 。 

(e) 满足 以 下 任 一 条 件 的 都 可 以 发 送 : (i) 某 一 ACK 不 是 目前 期 盼 的 ( 即 没 有 未 经 确认 
的 在 传 数据 ); (ii) 该 连接 禁用 Nagle 算法 。 

条 件 (a) 最 直接 地 避免 了 高 耗费 的 报 文 段 传输 问题 。 条 件 Cb) 针对 通告 窗口 值 较 小 ， 

708) 可 能 小 于 要 传输 的 报 文 段 的 情况 。 条 件 (Cc) 防止 TCP 在 数据 需要 被 确认 以 及 Nagle 算法 启 
用 的 情况 下 发 送 小 报 文 段 。 若 发 送 端 应 用 在 执行 某 些 较 小 的 写 操 作 (如 小 于 报 文 段 大 小 )， 条 
件 (e) 可 以 有 效 避 免 SWS. 

上 述 三 个 条 件 也 让 我 们 回答 了 以 下 问题 : 当 有 未 经 确认 的 在 传 数据 时 ， 若 使 用 Nagle 算 
法 阻止 发 送 小 的 报 文 段 ， 究 况 多 小 才 算 小 ? MA (a) 可 以 看 出 ,“ 小 ”意味 着 字 节 数 要 小 
于 SMSS ( 即 不 超过 PMTU 或 接收 端 MSS 的 最 大 包 大 小 )。 条 件 Cb) 只 用 于 比较 旧 的 原始 主 
机 ， 或 者 因 接 收 端 缓存 有 限 而 使 用 较 小 通告 窗口 时 。 

条 件 (b) 要 求 发 送 端 记 录 接 收 端 通告 窗口 的 最 大 值 。 发 送 端 以 此 猜测 接收 端 缓存 大 小 。 
尽管 当 连 接 建立 时 缓存 大 小 可 能 减 小 ， 但 实际 这 种 情况 很 少见 。 另 外 ， 前 面 也 提 到 过 ，TCP 
需要 避免 窗口 收缩 。 


15.5.3.1 例子 

下 面 我 们 通过 一 个 具体 的 例子 来 观察 SWS 避免 的 行为 ; 本 例 也 包含 持久 计时 器 。 这 
里 使 用 我 们 的 sock 程序 ， 发 送 端 主机 为 Windows XP 系统 ， 接 收 端 为 FreeBSD ， 执 行 三 次 
2048 字 节 的 写 操作 传输 。 发 送 端 命令 如 下 : 


C:\> sock -i -n 3 -w 2048 10.0.0.8 6666 
接收 端 相应 的 命令 为 : 
FreeBSD% sock -i -s -P 15 -p 2 -r 256 -R 3000 6666 


该 命令 将 接收 端 缓 存 设 为 3000 字 节 ， 在 首次 读数 据 前 有 15s 的 初始 延 时 ， 之 后 每 次 读 
都 会 引入 2s 的 延 时 ， 每 次 读 的 数据 量 为 256 字 节 。 设 置 初始 延 时 是 为 使 接收 端 缓存 占 满 ， 
最 终 迫 使 传输 停止 。 这 时 通过 使 接收 端 执 行 小 的 读 操作 ， 我 们 期 望 看 到 它 执行 SWS 避免 。 
利用 Wireshark 可 以 得 到 如 图 15-14 所 示 的 记录 。 

整个 连接 的 传输 内 容 如 图 所 示 。 包 长 度 是 根据 每 个 报 文 段 中 携带 的 TCP 有 效 载荷 数据 
描述 的 。 在 连接 建立 过 程 中 ， 接 收 端 通告 窗口 为 3000 字 节 ，MSS 为 1460 字 节 。 发 送 端 在 
0.052s 时 刻 发 送 了 一 个 1460 字 节 的 包 ( 包 4)， 在 0.053s 时 刻 发 送 了 588 字 节 的 包 ( 包 5 )。 
两 者 总 和 为 2048 字 节 ， 为 应 用 写 操作 的 大 小 。 包 6 是 对 这 两 个 包 的 确认 ， 并 提供 了 一 个 952 

字 节 的 窗口 通告 (3000 - 1460 - 588 = 952 )。 
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3699 > 6666 [ACK] Seq=1 A 

3699 > 6666 [ACK] Seq=1 5535 Len=1460 

3699 > 6666 [PSH, ACK] SeQ=1461 Ack- win=65535 Len=588 
6666 > 3699 [ACK] Seqel Ack=2049 Win-952 Len<0 

3699 > 6666 [ACK] Seq=2049 ACKeL win=55535 Len=952 


TCP 6666 > 3699 [ACK] Seqel Ack=4462 Win=75 Leriz0 — 
TCP 3699 > 6666 [ACK] Seq=4462 Ack=1 Win=65535 Len=75 


O= 3043, 486822 10.0.0.100 10.0.0. P » ACK] 074 Ack 
~ 3143.581711 10,0.0.8 10.0.0.100 a 6666 > 3699 tec sepi Ack=6145 Win=696 Len=0 





图 15-14 SWS 避免 的 行为 分 析 。 AFE OOs AERIS SWS BAS, 发 送 端 没有 使 用 通告 窗口 传输 数 
Ho 相反 , 一直 等 到 5.066s 时 刻 ， 同 时 也 有 效 地 执行 了 窗口 探测 。 通 过 14 号 包 可 以 看 到 接 
收 端 SWS 避免 ， 即 使 已 经 处 理 了 部 分 数据 ， 接 收 端 依然 通告 零 窗 口 


952 字 节 的 窗口 ( 包 6) 并 没有 一 个 MSS 大 ， 所 以 Nagle 算法 阻止 了 发 送 端的 立即 发 
送 。 相 反 ， 发 送 端 等 待 了 Ss， 直 到 持续 计时 器 超时 ， 才 发 送 了 一 个 窗口 探测 。 考 虑 到 无 论 如 
何 都 要 发 送 一 个 包 ， 因 此 发 送 端 发 送 了 人 允许 的 952 字 节 数据 填 满 了 可 用 窗口 ， 因 此 包 8 返回 
了 零 窗 口 通告 。 

一 个 事件 发 生 在 6.970s 时 刻 ，TCP 发 送 了 一 个 窗口 探测 ， 即 在 接收 到 首 个 零 窗 口 通告 
约 2s 后 。 探 测 包 本 身 包 含 一 个 字 节 的 数据 ， 图 中 Wireshark 显示 为 “TCP ZeroWindowProbe” , 
但 对 该 探测 包 的 ACK 号 却 没 有 增 大 (Wireshark 将 其 标记 为 “TCP ZeroWindowProbeAck” ), 
因此 这 一 个 字 节 的 数据 并 没有 被 接收 端 保存 。 在 10.782s 时 刻 又 产生 了 一 个 探测 包 ( 约 4s 后 ) 
接着 18.408s 时 刻 又 产生 一 个 (A 8s 以 后 )， 表 明 其 发 送 间 隔 随 时 间 呈 指数 增长 。 注 意 到 最 后 
一 次 窗口 探测 中 包含 的 一 个 字 节 的 数据 已 被 接收 端 确认 。 

在 25.061s 时 刻 ， 在 上 层 应 用 执行 了 6 次 256 字 节 的 读数 据 操作 后 (每 次 间隔 28)， 窗 
口 更 新 表明 现在 接收 端 缓存 中 有 1535 字 节 (ACK 号 加 1 ) 的 可 用 空间 。 根 据 接收 端 SWS 避 
免 规 则 ， 该 数值 已 “足够 大 ”。 发 送 端 开 始 继续 传送 数据 ， 在 25.064s 时 刻 发 送 了 1460 字 节 
的 包 ， 在 25.161s 时 刻 得 到 了 对 4462 字 节 数据 的 ACK， 这 时 通告 窗口 大 小 只 有 75 字 节 ( 包 
17 )。 该 通告 似乎 违背 了 我 们 之 前 的 规则 ， 即 窗口 值 应 至 少 为 一 个 MSS (对 FreeBSD 来 说 ) 
或 总 缓存 空间 的 四 分 之 一 。 出 现 这 种 情况 的 原因 在 于 避免 窗口 收缩 。 最 后 一 个 窗口 更 新 中 
( 包 15 )， 接 收 端 通告 窗口 右边 界 为 (3002 + 1535) = 4537。 如 果 当 前 ACK ( 包 17 ) 通告 的 窗 
口 小 于 75 字 节 ， 像 接收 端 SWS 避免 要 求 的 那样 ， 窗 口 右边 界 就 会 左 移 ，TCP 是 不 允许 出 现 
这 种 情况 的 。 因 此 这 75 字 节 的 通告 窗口 代表 一 种 更 高 的 优先 级 : 避免 窗口 收缩 优先 于 避免 
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SWS. 

通过 包 17 和 包 18 之 间 的 Ss 的 延 时 ， 我 们 再 次 看 到 发 送 端的 SWS 避免 。 发 送 端 被 强制 
要 求 发 送 一 个 75 字 节 的 包 ， 接 收 端 返 回 一 个 零 窗口 通告 响应 。 在 1s 之 后 的 包 20 是 再 次 的 
窗口 探测 BET 767 字 节 的 可 用 窗口 。 又 一 轮 的 发 送 端 SWS 避免 导致 了 Ss 的 延 时 ; 发送 
端 填 满 窗口 后 ， 再 次 返回 零 窗 口 通告 ; 这 种 状况 一 直 重 复 。 最 终 发 送 端 没 有 新 的 数据 发 送 而 
终止 。 包 30 代表 发 送 的 最 后 一 个 包 ， 在 20s 后 连接 终止 (由 于 接收 端 应 用 每 次 读数 据 的 间隔 
H 2s). 

为 了 理解 上 层 应 用 行为 、 通 告 窗口 和 SWS 避免 之 间 的 关系 ， 我 们 将 连接 的 动态 传输 以 
表格 的 形式 展现 出 来 。 表 15-1 给 出 了 发 送 端 和 接收 端的 行为 ， 以 及 接收 端 应 用 执行 读 操 作 
的 估计 时 间 。 


表 15-1 SWS 





接收 端 缓存 
Ce ws ete Sat a ee 可 用 空间 
0.000 3000 
SYN | 
0.001 3000 


ACK 2049 
0.053 2048 952 
Tans 窗口 大 小 952 和 


5.160 peta NS 3000 0 
l 窗口 大 小 0 


CK 3001 
mw fae | 
oe [of ee Te 
窗口 大 小 0 


25 读 取 256 字 节 


25.061 ACR aa 1465 1535 
窗口 大 小 1535 


— 
Un 
w 
wn 
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43 
43.485 


43.485 
43.486 
43.581 
43.711 
43.711 


45, 47, 49, 51 
53, 55 


55.212 


57, 59, 61 
63 
63,252 


( 续 ) 


行 为 接收 端 缓存 
TOP 发 送 端 应 用 层 已 存 数据 | 可 用 空间 





ul 
对 
H 


| ERR | 
窗口 大 小 75 
| | asc | m 587 
fa ete | 


2488 512 


ACK 4537 2488 512 
窗口 大 小 0 


4462:4536 (75) 
| | : | ee 768 


20 4537:4537 (1) 2233 767 


amar _| Ts 
窗口 大 小 767 
TERS 


窗口 大 小 0 
| | | | 223 768 
窗口 大 小 767 
让 
| | | 读 取 256 字 节 | ma 1279 
窗口 大 小 0 
| | | 读 取 256 字 节 | 2232 768 


ACK 6074 5544 二 
窗口 大 小 767 


窗口 大 小 696 
a ee AS Ce ER 
窗口 大 小 695 
| | 
窗口 大 小 2232 


22 4538:5304 (767) 


23 
24 
25 
26 
27 
28 
29 
30 
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在 表 15-1 中 ,第 1 列表 示 图 中 出 现 的 每 个 传输 行为 的 相对 时 刻 ， 带 三 位 小 数 的 数值 是 
Wireshark 显示 的 时 间 值 (参见 图 15-16 ) 。 而 不 带 小 数 的 则 是 接收 端 主机 行为 的 估计 时 刻 ， 
图 中 并 没有 显示 。 

接收 端 缓存 中 的 数据 ( 表 中 标记 为 “已 存 数据 ”) 随 着 新 数据 的 到 达 而 增加 ， 随 着 上 层 
应 用 的 读 取 而 减少 。 我 们 想 了 解 的 是 接收 端 返回 给 发 送 端的 窗口 通告 中 包含 的 内 容 。 这 样 就 
能 知道 接收 端 是 怎样 避免 SWS 的 。 

如 前 所 述 ， 第 一 次 SWS 避免 是 包 6 和 包 7 之 间 的 Ss 延 时 ， 由 于 窗口 大 小 只 有 952 字 
节 ， 发 送 端 一 直 避 免 传 输 直 到 被 强制 要 求 发 送 数据 。 传 输 完 成 后 ， 接 收 端 缓存 满 ， 之 后 产生 
了 一 系列 的 零 窗口 通告 和 窗口 探测 交换 。 我 们 可 以 看 到 持续 计时 器 指示 的 时 间 间 隔 呈 指数 增 
K: 探测 包 的 发 送 时 刻 为 6.970s, 10.782s 和 18.408s。 这 些 时 刻 与 发 送 端 首次 接收 到 零 窗 口 
通告 的 时 刻 5.160s 的 间隔 约 为 2s8、4s、8s。 

尽管 上 层 应 用 在 15s 和 17s 时 刻 读 数据 ， 但 至 18.408s 时 刻 为 止 只 读 了 512 字 节 。 根 据 
接收 端 SWS 避免 规则 要 求 ， 由 于 512 字 节 的 可 用 缓存 既 小 于 总 缓存 空间 (3000 字 节 ) 的 一 
半 ， 也 没有 达到 一 个 MSS (1460 字 节 )， 因 此 不 能 提供 窗口 更 新 。 发 送 端 在 18.408s 时 刻 发 
送 了 一 个 窗口 探测 ( 报 文 段 13 )。 该 探测 包 被 接收 ， 由 于 缓存 有 一 定 的 可 用 空间 ， 因 此 其 中 
包含 的 一 个 字 节 数据 也 被 保存 ， 报 文 段 12 和 14 之 间 的 ACK 号 的 增长 验证 了 这 一 点 。 

尽管 有 511 字 节 的 可 用 空间 ,但 接收 端 再 次 实施 了 SWS 避免。 接收 端 FreeBSD 在 实 
BL SWS 避免 时 区 分 了 何 时 发 送 窗 口 更 新 与 怎样 响应 窗口 探测 。 它 遵循 [RFC1122] 中 的 规则 ， 
只 在 通告 窗口 至 少 为 总 接收 缓存 的 一 半 (或 一 个 MSS) 时 才 发 送 窗 口 更 新 ， 并 且 只 有 当 窗 口 
至 少 为 一 个 MSS 或 超过 总 接收 缓存 的 四 分 之 一 才 响 应 窗口 探测 。 但 在 这 里 ，511 字 节 小 于 一 
个 MSS 且 不 到 3000/4 = 750 字 节 ， 因 此 接收 端 只 好 对 报 文 段 13 的 ACK 中 包含 的 通告 窗口 
设 为 0。 

直到 25s 时 刻 为 止 ， 上 层 应 用 完成 了 6 次 读 操 作 ， 接 收 端 缓存 有 1535 字 节 空闲 (大 于 
总 的 3000 字 节 的 一 半 )， 因 此 发 送 了 一 个 窗口 更 新 ( 报 文 段 15 )。 发 送 的 数据 为 全 长 报 文 段 
( 报 文 段 16 )， 接 收 到 的 ACK 中 包含 的 通告 窗口 仅 为 75 字 节 。 在 接 下 来 的 5s 内 ， 两 端 都 执 
行 SWS 避免 。 发 送 端 需要 等 待 一 个 更 大 的 通告 窗口 ， 上 层 应 用 在 27s 时 刻 和 29s 时 刻 执行 
读 操作 ,但 只 有 587 字 节 的 空间 ， 不 足以 发 送 窗口 更 新 。 因 此 ， 发 送 端 持 续 等 待 了 5s 并 最 
终 发 送 了 剩余 的 75 字 节 ， 人 迫使 接收 端 再 次 进入 SWS 避免 状态 。 

接收 端 没 有 提供 窗口 更 新 ， 直 到 31.548s 时 刻 发 送 端 的 持续 计时 器 超时 ， 发 送 了 一 个 窗 
口 探测 。 接 收 端 响应 了 一 个 非 零 窗口 ， 为 767 字 节 (大 于 总 接收 缓存 的 四 分 之 一 )。 该 窗口 值 
对 发 送 端 并 非 足 够 大 ， 因 此 继续 执行 发 送 端的 SWS 和 避免。 发送 端 等 待 了 5s， 之 后 一 直 重 复 上 
BRIE. RA, Æ 43.486s 时 刻 ， 最 后 的 71 字 节 发 送 完 并 得 到 确认 。 该 ACK 中 包含 696 字 节 
的 窗口 通告 。 尽 管 小 于 总 接收 缓存 的 四 分 之 一 ， 为 了 避免 窗口 收缩 ， 通 告 窗口 并 没有 设 为 0。 

从 报 文 段 32 开始 ， 不 再 包含 数据 ， 连 接 开始 关闭 。 随 即 得 到 的 确认 中 窗口 大 小 为 695 
字 节 (接收 端的 FIN 消耗 了 一 个 序列 号 )。 在 上 层 应 用 再 次 完成 6 次 读 操作 后 ， 接 收 端 提供 
了 一 个 窗口 更 新 ， 但 发 送 端 已 经 完成 所 有 数据 的 发 送 ， 并 保持 空闲 状态 。 上 层 应 用 又 执行 了 
4 次 读 操作 ， 其 中 3 次 返回 256 字 节 ， 最 后 1 次 没有 返回 ， 表 明 已 经 无 数据 到 达 。 此 时 ， 接 
收 端 关闭 连接 并 发 送 FIN。 发 送 端 返回 了 最 后 一 个 ACK， 双 向 连接 结束 。 

由 于 发 送 端 应 用 在 执行 3 次 2048 字 节 的 写 操 作 后 开始 关闭 连接 ， 在 发 送 完 报 文 段 32 
后 ,发 送 端 从 ESTABLISHED 状态 变 为 FIN_WAIT 1 状态 (参见 第 13 章 )。 接 着 在 接收 到 报 
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文 段 33 后 ， 进 入 FIN_WAIT 2 状态 。 尽 管 在 这 时 接收 到 了 窗口 更 新 ， 但 发 送 端 没 有 任何 动 
作 ， 因 为 它 已 经 发 送 了 FIN 并 经 确认 (这 一 阶段 没有 计时 器 )。 相 反 ， 在 接收 到 对 方 的 FIN 
前 ， 它 只 是 静 静 等 待 。 这 就 是 我 们 没有 看 到 更 多 的 传输 直至 接收 到 FIN 的 原因 ( 报 文 段 35 ) 。 
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从 前 面 的 章节 可 以 看 到 ， 在 相似 的 环境 下 ， 使 用 较 小 接收 缓存 的 TCP 应 用 的 吞吐 性 能 
更 茵 。 即 使 接收 端 指定 一 个 足够 大 的 缓存 ， 发 送 端 也 可 能 指定 一 个 很 小 的 缓存 ， 最 终 导致 性 
能 变 差 。 这 个 问题 非常 严重 ， 因 此 很 多 TCP 协议 栈 中 上 层 应 用 不 能 指定 接收 缓存 大 小 。 在 
多 数 情况 下 ， 上 层 应 用 指定 的 缓存 会 被 忽视 ， 而 由 操作 系统 来 指定 一 个 较 大 的 固定 值 或 者 动 
态 变化 的 计算 值 。 

在 较 新 的 Windows 版 本 ( Vista/7 ) 和 Linux 中 ， 支 持 接收 窗口 自动 调 优 [S98]。 有 了 自 
动 调 优 ， 该 连接 的 在 传 数据 值 (连接 的 带宽 延 时 积 个 重要 概念 ， 将 在 第 16 章 讨 论 ) 需 
要 不 断 被 估算 ， 通 告 窗口 值 不 能 小 于 这 个 值 (假如 剩余 缓存 空间 足够 )。 这 种 方法 使 得 TCP 
达到 其 最 大 可 用 吞吐 率 ( 受 限于 网 络 可 用 容量 )， 而 不 必 提 前 在 发 送 端 或 接收 端 设 置 过 大 的 组 
存 。 在 Windows 系统 中 ， 默 认 自 动 设置 接收 端 缓存 大 小 。 然 而 ， 也 可 以 通过 netsh 命令 更 改 
默认 值 : 


C:\> netsh interface tcp set heuristics disabled 





C:\> netsh interface tcp set global autotuninglevel=x 


ix OX BiH disabled, highlyrestricted, restricted, normal 或 experimental, # [F] Hy 
设置 值 会 影响 接收 端 通告 窗口 的 自动 选择 。 在 disabled 状态 下 ， 禁 用 自动 调 优 ， 窗 口 大 小 使 
用 默认 值 。restricted 模式 限制 窗口 增长 normal 允许 其 相对 快速 增长 。 而 experimental 模式 
允许 窗口 积极 增长 ， 但 通常 并 不 推荐 normal 模式 ， 因 为 许多 因特网 站 点 及 某 些 防火 墙 会 干 
扰 ， 或 没有 很 好 地 实现 TCP 窗口 缩放 (Window Scale) 选项 。 

对 于 Linux 2.4 及 以 后 的 版 本 ， 支 持 发 送 端 自动 调 优 。2.6.7 及 之 后 的 版 本 ， 两 端 都 支持 
该 功能 。 然 而 ， 自 动 调 优 受制 于 缓存 大 小 。 下 面 的 Linux sysctl 变量 控制 发 送 端 和 接收 端的 
最 大 缓存 。 等 号 之 后 的 值 为 默认 值 (根据 不 同 的 Linux 版 本 可 能 会 有 不 同 )， 如 果 系 统 用 于 高 
带宽 延 时 积 的 环境 下 ， 上 述 值 需要 增 大 。 


net.core.rmem max = 131071 
net.core.wmem_max = 131071 
net.core.rmem_ default = 110592 
net.core.wmem_default = 110592 


”另外 ， 通 过 下 面 的 变量 设 定 自动 调 优 参数: 
net.ipv4.tcp rmem = 4096 87380 174760 
net.ipv4.tcp_wmem = 4096 16384 131072 


每 个 变量 包含 三 个 值 : 自动 调 优 使 用 的 缓存 的 最 小 值 、 默 认 值 和 最 大 值 。 
例子 

为 演示 接收 端 自动 调 优 行为 ， 这 里 采用 Windows XP 发 送 端 ( 设 为 使 用 大 容量 窗口 和 窗 
口 缩放 ) 和 Linux 2.6.11 接收 端 (支持 自动 调 优 )。 在 发 送 端 运行 如 下 命令 : 

C:\> sock -n 512 -i 10.0.0.1 6666 


对 接收 端 ， 我 们 不 对 接收 缓存 做 任何 设置 ， 但 在 上 层 应 用 读 取 数 据 前 设置 20s 的 初始 
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延 时 : 

Linuxs sock -i -s -v -P 20 6666 

为 描述 接收 端 通告 窗口 的 增长 ， 可 以 利用 Wireshark 来 显示 包 传 输 情 况 ， 并 根据 接收 端 
地 址 来 进行 分 类 (参见 图 15-15 ) 。 在 连接 建立 阶段 ， 接 收 端 初始 窗口 值 为 1460 字 节 ， 初 始 
MSS 为 1412 字 节 。 由 于 其 采用 了 窗口 缩放 ,会 有 2 倍 的 变动 (图 中 没有 显示 )， 使 得 最 大 可 
用 窗口 为 256KB。 可 以 看 到 在 完成 第 一 个 包 传 输 后 ， 窗 口 有 了 增长 ， 相 应 地 发 送 端 也 提高 了 
发 送 速率 。 在 第 16 章 中 我 们 将 会 讨论 TCP 拥塞 控制 的 发 送 速率 。 现 在 ， 我 们 只 需要 知道 发 
送 端 何 时 开始 发 送 ， 通常 情况 下 其 首先 发 送 一 个 包 ， 接 着 每 收 到 一 个 ACK， 发 包 数 就 增加 

一 个 MSS。 因 此 ， 每 接收 一 个 ACK， 就 会 发 送 两 个 包 (每 个 包 长 度 为 一 个 MSS)。 


A - Wireshark 





图 15-15 Linux 接收 端 执行 自动 调 优 ， 窗 口 值 随 着 接收 数据 的 增多 而 增 大 。 由 于 上 层 应 用 在 20s 之 内 
都 没有 读 取 数据 ， 最 终 窗 口 将 关闭 


观察 窗口 通告 值 10712、13536、16360、19184.…… 可 以 发 现 ， 每 接收 一 个 ACK， 窗 口 
就 增长 两 个 MSS， 这 与 发 送 端 拥 塞 控 制 操作 相 一 致 (第 16 章 会 讨论 )。 假 设 接收 端 存储 空 
间 足 够 大 ， 根 据 拥 塞 控制 局 限 性 ， 通 告 窗口 总 是 大 于 允许 发 送 的 数据 量 。 这 种 方式 是 最 优 
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17| 的 一 一 在 保持 发 送 端 最 大 发 送 速 率 的 情况 下 ， 接 收 端 通告 和 使 用 的 缓存 空间 最 小 。 


当 接 收 端 缓存 资源 耗 尽 时 ， 自 动 调 优 也 会 受 影响 。 在 本 例 中 ，0.678s 时 刻 窗口 达到 最 大 
值 33 304 字 节 ， 接 着 开始 减 小 。 这 是 由 于 上 层 应 用 停止 读 取 数据 ， 导 致 缓存 被 占 满 。 当 20s 
后 上 层 应 用 继续 读 操作 时 ， 窗 口 再 次 增 大 ， 并 超过 了 之 前 的 最 大 值 (参见 图 15-16 )。 


win-scaledwin -linux-autotune,td - Wireshark 








图 15-16 当 上 层 应 用 暂停 读 取 数据 时 ， 接 收 端 缓冲 区 开始 被 占 满 ， 自 动 调 优 也 相应 停止 。 随 着 读 操 作 
的 继续 执行 ， 通 告 窗口 也 逐渐 增 大 ， 并 超过 了 之 前 的 最 大 值 


零 窗 口 通告 ( 包 117 ) 使 得 发 送 端 执行 了 一 系列 的 窗口 探测 ， 但 返回 的 仍 是 一 系列 的 零 
窗口 。 在 20.043s 时 刻 恢 复读 数据 操作 时 ， 发 送 端 接收 到 了 窗口 更 新 。 每 接收 到 一 个 ACK， 
窗口 就 增 大 两 个 MSS。 随 着 数据 的 发 送 、 接 收 和 处 理 ， 通 告 窗 口 达 到 了 最 大 值 67808。 该 版 
本 的 Linux 也 测量 相 邻 两 次 读 操作 完成 的 时 间 ， 并 与 估计 RTT 值 相 比较 。 如 果 RTT 估计 值 
增 大 ， 那 么 缓存 也 将 增 大 (但 不 会 因 RTT 的 减 小 而 减 小 缓存 ) 。 这 样 即使 在 连接 的 带宽 延 时 
积 增 大 的 情况 下 ， 自 动 调 优 也 保持 接收 端 通告 窗口 优先 于 发 送 端 窗 口 。 

随 着 广域网 络 连接 速度 的 增长 TCP 应 用 使 用 的 缓存 太 小 已 成 为 严重 局 限 。 在 美国 ， 全 
国 范围 内 的 RTT 约 为 100ms， 在 一 个 1Gb/s 的 网 络 中 使 用 64KB 的 窗口 将 TCP 吞吐 量 限 制 
在 约 640KB/s， 而 计算 的 最 大 值 可 以 达到 约 130MB/s (99% 的 带宽 都 浪费 了 )。 实 际 上 ， 如 
果 在 相同 网 络 环境 下 使 用 较 大 容量 的 缓存 ， 吞 吐 性 能 将 提升 100 倍 。Web100 工程 [W100] 应 
得 到 更 多 关注 和 信心 。 它 开发 了 一 人 致力 于 使 应 用 从 众多 的 TCP 实现 
中 获得 最 优 的 吞吐 性 能 。 
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15.6 ”紧急 机 制 


我 们 在 第 12 章 中 已 经 提 到 ，TCP 头 部 有 一 个 位 字段 URG 用 来 指示 “紧急 数据 ”。 应 
用 在 执行 写 操作 时 ， 可 通过 设置 Berkeley 套 接 字 API (MSG_OOB) 的 特殊 选项 将 数据 标记 
为 紧急 ,但 [RFC6093] 不 再 推荐 设置 紧急 数据 。 当 发 送 端 TCP 收 到 这 类 写 操作 要 求 时 ， 会 
进入 称 为 紧急 模式 (urgent mode) 的 特殊 状态 。 它 记录 紧急 数据 的 最 后 一 个 字 节 ， 用 于 设 
置 紧 急 指针 (Urgent Pointer) 字段 ， 随 后 发 送 端 生成 的 每 个 TCP 头 部 都 包含 该 字段 ， 直 
到 应 用 停止 紧急 数据 写 操 作 ， 并 且 所 有 序列 号 大 于 紧急 指针 的 数据 都 经 接收 端 确认 。 根 据 
[RFC6093]， 紧 急 指针 指示 的 是 紧急 数据 之 后 的 一 个 字 节 。 大 量 的 RFC 文档 中 对 紧急 指针 的 
阐述 都 存在 语义 上 的 模糊 和 二 义 性 。 对 于 使 用 IPv6 的 超 长 数据 报 而 言 ， 紧 急 指针 值 需 设 为 
65535， 用 于 指示 紧急 数据 的 末端 位 于 TCP 数据 域 的 最 后 [RFC2675]， 如 果 使 用 传统 的 16 位 
紧急 指针 字段 就 不 能 表示 64KB 的 偏 移 。 

当 收 到 UGR 置 位 的 报 文 段 时 ，TCP 接收 端 就 会 进入 紧急 模式 。 接 收 端 应 用 可 以 调用 标 
准 套 接 字 API (select ()) 来 判断 是 否 进 入 紧急 模式 。 紧 急 机 制 会 带 来 操作 上 的 混淆 ， 因 为 
Berkeley 套 接 字 API 和 文档 中 用 到 了 术语 : 带 外 ( Out-Of-Band, OOB) 数据 。 而 实际 上 TCP 
并 没有 实现 任何 OOB 功能 。 相 反 ， 差 不 多 所 有 TCP 实现 在 将 紧急 数据 的 最 后 一 个 字 节 传输 
给 上 层 应 用 时 ， 在 接收 端 使 用 了 一 个 截然 不 同 的 API 参数 。 接 收 端 必 须要 设置 MSG_OOB 
选项 检索 该 字 节 ， 或 者 设置 MSG_OOBINLINE 使 该 字 节 保持 在 正常 数据 流传 输 (在 使 用 紧 
和 急 机 制 情况 下 ， 需 要 用 到 该 方法 )。 


15.6.1 例子 


为 更 好 地 理解 紧急 机 制 ， 我 们 通过 一 个 例子 来 具体 观察 紧急 模式 的 行为 ， 包 括 在 零 窗口 
事件 期 间 发 生 的 状况 。 这 里 使 用 Mac OS X 发 送 端 和 Linux 接收 端 。 为 获得 零 窗 口 ， 我 们 首 
先 在 接收 端 限制 接收 窗口 自动 调 优 : 


Linux# sysctl -w net.ipvé.tcp rmem='4096 4096 174760' 


Linux% sock -i -v -s -p 1 -P 10 5555 


第 一 个 命令 确保 接收 窗口 的 自动 调整 幅度 不 超过 4KB ， 这 样 就 可 以 清楚 地 看 到 窗口 关闭 
时 发 生 的 情形 。 第 二 个 命令 使 服务 器 在 读数 据 前 等 待 10s， 并 在 每 次 读 操作 间 等 待 1s。 在 客 
户 端 我 们 执行 如 下 命令 : 


Mac% sock -i -n 7 -U 7 -p 1 -S 8192 10.0.1.1 5555 
SO_SNDBUF = 8192 

connected on 10.0.1.33.51101 to 10.0.1.1.5555 
TCP_MAXSEG = 1448 

wrote 1024 bytes 

wrote 1024 bytes 

wrote 1024 bytes 

wrote 1024 bytes 

wrote 1024 bytes 

wrote 1024 bytes 

wrote 1 byte of urgent data 

wrote 1024 bytes 


该 命令 使 得 客户 端 每 隔 1s 执行 一 次 写 操作 ， 共 7 次 ,每 次 1024 字 节 ， 且 在 最 后 一 次 写 
之 前 写 了 1 个 字 节 的 紧急 数据 。 客 户 端 缓存 设置 为 8129 字 节 ， 由 于 在 TCP 发 送 数据 前 所 有 
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数据 都 暂时 存储 在 发 送 端 ， 因 此 缓存 已 足够 大 ， 该 应 用 可 立即 得 到 执行 。 

如 图 15-17 所 示 ， 接 收 端 初始 通告 窗口 右边 界 为 2800， 并 很 快 增 至 5121。 在 1.0s 时 刻 ， 
应 用 执行 了 一 次 写 操 作 ， 窗 口 右边 界 前 进 至 6145。 之 后 由 于 自动 调 优 限制 了 约 4192 ZH H 
接收 应 用 没有 执行 读 操作 ， 窗 口 没 有 继续 增长 。 直 到 10.0s 时 刻 ， 发 送 端 执 行 了 窗口 探测 ， 
但 依旧 没有 获得 窗口 增长 。 最 终 在 10.0s 时 刻 之 后 ， 接 收 端 开 始 继续 读 取 数据 ， 窗 口 打 开 ， 
发 送 端 继续 发 送 直至 完成 传输 。 包 交换 情况 如 图 15-18 所 示 。 


TCP Graph 1: urgent-demo,tr 10,0,1,33:51101 -> 10.0.1.1:5555 


Time/Sequence Graph (tcptrace) 
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图 15-17 在 执行 6 次 写 操作 后 ， 接 收 端 窗口 没有 前 移 。TCP 发 送 端 暂停 发 送 ， 直 至 在 10s 时 刻 窗口 打开 


紧急 模式 的 “出 口 点 ”定义 为 TCP 报 文 段 中 序列 号 字段 与 紧急 指针 字段 之 和 。 每 个 
TCP 连接 只 维护 一 个 紧急 “点 ”( 序 列 号 偏 移 )， 因 此 紧急 指针 字段 为 空 的 包 会 导致 前 面 的 紧 
急 指 针 包 含 的 信息 丢失 。 报 文 段 16 为 第 一 个 紧急 指针 为 空 的 报 文 段 ， 使 得 序列 号 6146 到 达 
出 口 点 。 注 意 到 该 序列 号 可 能 并 不 在 指示 的 报 文 段 中 ， 而 可 能 在 之 后 的 报 文 段 中 。 例 如 报 文 
段 17 就 是 这 种 情况 ， 它 没有 包含 任何 数据 ， 只 有 紧急 指针 ( 值 为 1 )。 

如 前 所 述 ， 有 个 问题 一 直 存 在 争议 ， 即 出 口 点 指示 的 是 紧急 数据 的 最 后 一 个 字 节 还 是 非 
紧急 数据 的 第 一 个 字 节 。[RFC1122] 认为 指针 指示 的 是 紧急 数据 的 最 后 一 个 字 节 。 然 而 ， 基 
本 上 所 有 的 TCP 实现 都 没有 遵循 该 规定 ， 因 此 [RFC6093] 认识 到 了 这 一 问题 ， 并 修改 规范 
让 指针 指向 非 紧 急 数据 的 第 一 个 字 节 。 在 本 例 中 ， 序 列 号 为 6145 的 字 节 包含 了 由 sock 客户 
端 产 生 的 1 字 节 紧急 数据 ， 但 在 所 有 的 报 文 段 中 ， 紧 急 指针 的 值 为 1， 序列 号 为 6145。 因 
此 ， 可 以 看 出 该 TCP 实现 中 (大 多 数 TCP 实现 都 如 此 )， 出 口 点 为 非 紧急 数据 的 第 一 个 字 节 
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的 序列 号 。 

从 这 个 例子 可 以 看 到 ，TCP 将 紧急 数据 携带 在 数据 流 中 传输 (而 非 “ 带 外 传输 ”)。 如 果 
某 个 应 用 确实 需要 独立 的 信号 通道 ， 可 以 简单 采用 男 一 个 TCP 连接 。( 某 些 传输 层 协议 确实 
提供 大 多 数 人 认为 的 OOB 数据 ， 即 像 通常 数据 链 路 那样 使 用 同一 个 连接 ,但 有 独立 的 逻辑 
数据 路 径 。TCP 并 不 提供 该 功能 。) 
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图 15-18 ”整个 数据 传输 在 5.012s 时 刻 出 现 了 一 次 零 窗口 通告 。 当 应 用 执行 下 一 次 写 操作 时 ， 发 送 端 
TCP 进入 紧急 模式 ，6.0113s 时 刻 发 送 的 窗口 探测 报 文 段 中 的 URG 置 位 。 在 第 7 秒 执行 最 
后 一 次 写 操作 并 关闭 ， 产 生 了 两 个 空 的 报 文 段 。10.006s 时 刻 的 窗口 更 新 重新 启动 数据 传输 。 
10.009s 时 刻 的 零 窗 口 通告 使 得 传输 再 次 停止 ， 同 时 由 于 紧急 指针 已 被 确认 ， 因 此 可 以 退出 
紧急 模式 。11.007s 时 刻 的 FIN 包含 了 数据 的 最 后 一 个 字 节 


15.7 与 窗口 管理 相关 的 攻击 

TCP 窗口 管理 可 能 受到 多 种 攻击 ， 主 要 形式 为 资源 耗 尽 。 通 告 窗口 较 小 会 使 得 TCP 传 
输 减 慢 ， 因 此 会 更 长 时 间 地 占用 资源 ， 如 存储 空间 。 这 一 点 已 被 用 于 针对 传输 性 能 较 差 的 网 
络 攻击 ( 即 蠕虫 )。 例 如 ，LaBrea tarpit 程序 [L01] 在 完成 TCP 三 次 握手 后 ， 要 么 不 做 任何 行 
为 ， 要 么 只 产生 一 些 最 小 的 应 答 ， 使 得 发 送 速 率 不 断 减 慢 。 通 过 此 法 来 保持 发 送 端 忙碌 ， 本 
质 上 是 减 慢 蠕虫 的 传播 速度 。 因 此 tarpit 程序 是 针对 流量 攻击 的 一 类 防护 。 

比较 新 的 攻击 发 布 于 2009 年 [I[09]， 它 基于 已 知 的 持续 计时 器 的 缺陷 ， 采 用 客户 端 
Z “SYN cookies” 技 术 (参见 第 13 章 )。 所 有 必要 的 连接 状态 都 可 以 下 载 到 受害 主机 进 
行 ， 从 而 使 得 攻击 方 主 机 消耗 最 少 的 资源 。 这 种 攻击 本 身 类 似 于 LaBrea 思想 ， 只 是 其 针 
对 持续 计时 器 。 同 一 台 服 务 器 可 能 受到 多 个 此 类 攻击 ， 最 终 导致 资源 耗 尽 (如 系统 内 存 耗 
尽 )。[C723308] 提出 了 一 种 解决 方法 ， 即 当 推断 出 现 资源 耗 尽 时 ， 人 允许 其 他 进程 关闭 TCP 
连接 。 
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15.8 总 结 


交互 式 数据 传输 的 报 文 段 通常 小 于 SMSS。 接 收 方 收 到 这 些 分 组 时 可 能 会 采取 延 时 确认 

的 方法 ,希望 能 将 这 些 ACK 与 需要 发 送 给 对 方 的 数据 一 起 撒 带 传输 。 这 种 方法 可 以 减少 传 
输 报 文 段 的 数目 ， 特 别 是 在 交互 式 流量 传输 中 ， 服 务 器 需要 对 客户 端的 每 个 按键 都 返回 响 
应 。 然 而 ， 延 时 确认 也 会 引入 额外 的 延 时 。 
p 对 于 RTT 相对 较 大 的 连接 ， 如 WAN， 通 常 使 用 Nagle 算法 来 减少 较 小 报 文 段 数目 。 
该 算法 限制 发 送 端 在 任意 时 刻 发 送 单个 小 数据 包 。 这 样 会 减少 较 小 数据 包 在 网 络 连接 中 的 
数目 ， 从 而 减 小 传输 资源 开销 ， 但 同时 也 可 能 引入 上 层 应 用 无 法 接受 的 延 时 。 另 外 ， 延 时 
ACK 与 Nagle 算法 的 互相 作用 可 能 导致 短暂 的 死 锁 。 基 于 上 述 原因 ， 有 的 应 用 可 能 禁用 
Nagle 算法 ， 而 大 多 数 交 互 式 应 用 都 使 用 该 功能 。 

TCP 通过 在 其 发 送 的 每 个 ACK 中 包含 一 个 窗口 通告 来 实现 流量 控制 。 该 窗口 告诉 对 方 
自己 还 有 多 少 缓存 空间 。 当 没有 使 用 TCP 窗口 缩放 选项 时 ， 最 大 通告 窗口 为 65 535 字 节 。 
否则 最 大 窗口 值 可 以 更 大 ( 约 1GB )。 

通告 窗口 值 可 能 为 0， 表明 接收 端 缓存 已 满 。 这 时 发 送 端 停止 发 送 ， 并 以 一 定 间隔 不 断 
地 发 送 窗 口 探测 ， 发 送 间 隔 类 似 于 超时 重 传 (参见 第 14 章 )， 直 到 收 到 ACK 表明 窗口 变 大 ， 
或 收 到 接收 端 主动 发 送 的 窗口 通告 (窗口 更 新 ) 表明 有 可 用 缓存 空间 。 这 种 以 一 定 间隔 连续 
发 送 的 行为 可 能 被 用 于 资源 耗 尽 攻击 。 

随 着 TCP -的 不 断 发 展 ， 出 现 了 一 种 奇怪 的 现象 。 当 通告 窗口 较 小 时 ， 发 送 端 会 立即 发 
送 数据 填 满 该 窗口 ， 这 样 在 连接 中 就 会 出 现 大 量 高 耗费 的 小 数据 包 。 这 种 现象 被 称 为 “糊涂 
窗口 综合 征 ” 。 针 对 这 一 问题 ， 在 TCP 发 送 端 和 接收 端 都 有 相应 的 策略 。 对 发 送 端 来 说 ， 若 
通告 窗口 较 小 则 避免 发 送 小 数据 包 ; 接收 端 则 尽量 避免 通告 小 窗口 。 

接收 端 窗口 大 小 受 限 于 其 缓存 大 小 。 一 般 来 说 ， 如 果 上 层 应 用 没有 设置 其 接收 缓存 大 
小 ， 就 会 为 其 分 配 一 个 相对 较 小 的 空间 ， 这 样 即使 在 高 带宽 的 传输 路 径 上 ， 传 输 延 时 仍旧 很 
大 ， 导 致 网 络 吞 吐 性 能 变 差 。 在 较 新 的 操作 系统 中 不 会 出 现 上 述 问 题 ， 采 用 自动 调 优 的 方法 
可 以 高 效 地 自动 分 配 缓存 大 小 。 
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16.1 引言 

本 章 将 探讨 TCP 实现 拥塞 控制 的 方法 ， 这 也 是 批量 数据 传输 中 最 重要 的 。 拥 塞 控制 是 
TCP 通信 的 每 一 方 需要 执行 的 一 系列 行为 。 这 些 行为 由 特定 算法 规定 ， 用 于 防止 网 络 因 为 大 
规模 的 通信 负载 而 瘫痪 。 其 基本 方法 是 当 有 理由 认为 网 络 即 将 进入 拥塞 状态 (或 者 已 经 由 于 
拥塞 而 出 现 路 由 器 丢 包 情况 ) 时 减缓 TCP 传输 。TCP 拥塞 控制 的 难点 在 于 怎样 准确 地 判断 何 
时 需要 减缓 且 如 何 减缓 TCP 传输 ， 以 及 何 时 恢复 其 原 有 的 速度 。 

TCP 是 提供 系统 间 数 据 可 靠 传输 服务 的 协议 。 第 15 章 已 经 提 到 ， 当 TCP 通信 的 接收 方 
的 接收 速度 无 法 匹配 发 送 速度 时 ， 发 送 方 会 降低 发 送 速度 。TCP 的 流量 控制 机 制 完成 了 对 发 
送 速率 的 调节 ， 它 是 基于 ACK 数据 包 中 的 通告 窗口 大 小 字段 来 实现 的 。 这 种 方式 提供 了 明 
确 的 接收 方 返回 的 状态 信息 ， 避 免 接 收 方 缓存 溢出 。 

当 网 络 中 大 量 的 发 送 方 和 接收 方 被 要 求 承担 超 负 和 荷 的 通信 任务 时 ， 可 以 考虑 采取 降低 发 
送 速率 或 者 最 终 丢 弃 部 分 数据 (也 可 将 两 者 结合 使 用 ) 的 方法 。 这 是 将 排队 理论 应 用 于 路 由 
器 的 基本 观测 结果 : 即使 路 由 器 能 够 存储 一 些 数据 ， 但 若 源源 不 断 的 数据 到 达 速 率 高 于 发 出 
速率 ， 任 何 容量 的 中 间 存 储 都 会 溢出 。 简 言 之 ， 当 某 一 路 由 器 在 单位 时 间 内 接收 到 的 数据 量 
多 于 其 可 发 送 的 数据 量 时 ， 它 就 需要 把 多 余 的 部 分 存储 起 来 。 假 如 这 种 状况 持续 ， 最 终 存 储 
资源 将 会 耗 尽 ， 路 由 器 因此 只 能 丢弃 部 分 数据 。 

路 由 器 因 无 法 处 理 高 速率 到 达 的 流量 而 被 迫 丢 弃 数 据 信息 的 现象 称 为 拥塞 。 当 路 由 器 处 
于 上 述 状态 时 ， 我 们 就 说 出 现 了 拥塞 。 即 使 仅 有 一 条 通信 和 连接， 也 可 能 造成 一 个 甚至 多 个 路 
由 器 拥塞 。 若 不 采取 对 策 ， 网 络 性 能 将 大 受 影响 以 致 瘫痪 。 在 最 坏 情况 下 ， 甚 至 形成 拥塞 崩 
溃 。 为 避免 或 者 在 一 定 程度 上 缓解 这 种 状况 ，TCP 通信 的 每 一 方 实行 拥塞 控制 机 制 。 不 同 的 
TCP 版 本 (包括 运行 TCP/IP 协议 栈 的 操作 系统 ) 采取 的 规程 和 行为 有 所 差异 。 本 章 将 着 重 讨 
论 最 常用 的 方法 。 


16.1.1 TCP 拥塞 检测 


如 前 所 述 ， 针 对 丢 包 情况 ，TCP 采取 的 首要 机 制 是 重 传 ,包括 超时 重 传 和 快速 重 传 ( 参 
见 第 14 章 )。 考 虑 如 下 情形 ， 当 网 络 处 于 拥塞 崩溃 状态 时 ， 共 用 一 条 网 络 传输 路 径 的 多 个 
TCP eA BARS MB. ek Leh, MAT, SR A, Brak 
种 情况 应 该 尽量 避免 。 

当 拥 塞 状 况 出 现 (或 将 要 出 现 ) 时 ， 我 们 可 以 减缓 TCP 发 送 端的 发 送 速率 ; 若 拥 塞 情 
况 有 所 缓解 ， 可 以 检测 和 使 用 新 的 可 用 带宽 。 然 而 这 在 互联 网 中 却 很 难 做 到 ， 因 为 对 于 TCP 
发 送 方 来 说 ， 没 有 一 个 精确 的 方法 去 知晓 中 间 路 由 器 的 状态 。 换 言 之 ， 没 有 一 个 明确 的 信 
号 告知 拥塞 状况 已 发 生 。 典 型 的 TCR 只 有 在 断定 拥塞 发 生 的 情况 下 ， 才 会 采取 相应 的 行动 。 
推断 是 否 出 现 拥塞 ， 通 常 看 是 否 有 丢 包 情 况 发 生 。 在 TCP 中 ， 丢 包 也 被 用 作 判 断 拥 塞 发 生 
与 否 的 指标 ， 用 来 衡量 是 否 实施 相应 的 响应 措施 ( 即 以 某 种 方式 减缓 发 送 )。 从 20 世纪 80 年 
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代 起 ,TCP 就 一 直 沿 用 这 种 方法 。 其 他 拥塞 探测 方法 ， 包 括 时 延 测 量 和 显 式 拥塞 通知 (ECN, 
16.11 节 会 讨论 )， 使 得 TCP 能 在 丢 包 发 生前 检测 拥塞 。 在 学 习 一 些 “ 经 典 ” 算 法 后 ,我 们 将 
讨论 上 述 探测 方法 。 


注意 在 当今 的 有 线 网 络 中 ， 出 现在 路 由 器 或 交换 机 中 的 拥塞 是 造成 丢 包 的 主要 原 
A, 而 在 无 线 网 络 中 ,传输 和 接收 错误 是 导致 技 包 的 重要 因素 。 从 20 世纪 90 年代 
中 期 无 线 网 络 获得 广泛 应 用 开始 ， 判 断 丢 包 是 由 于 拥塞 引起 还 是 传输 错误 引起 ， 一 
直 是 研究 的 热点 问题 。 


在 第 14 章 中 ,我 们 已 经 看 到 TCP 如 何 利用 计时 器 、 确 认 以 及 选择 确认 机 制 来 检测 丢 包 
和 恢复 传输 。 当 有 丢 包 情况 出 现时 ，TCP 的 任务 是 重 传 这 些 数据 包 。 现 在 我 们 关心 的 是 ， 当 
观测 到 丢 包 后 ，TCP 还 做 了 哪些 工作 ， 特 别 是 它 如 何 识别 这 就 是 已 出 现 拥塞 的 信号 ， 进 而 需 
要 执行 减速 操作 。 下 面 的 章节 主要 讨论 TCP 何 时 减速 以 及 怎样 减速 (包括 如 何 恢复 传输 速 
度 )。 我 们 首先 介绍 TCP 在 建立 新 连接 时 如 何 确立 基本 数据 传输 速率 ， 以 及 稳定 执行 大 数据 
量 传输 操作 的 经 典 算法 。 另 外 ， 我 们 也 整合 了 近年 来 对 这 些 算 法 的 研究 和 改进 成 果 ， 并 细 查 
了 相关 扩展 资料 。 在 此 基础 上 ， 我 们 讨论 总 结 了 TO 拥塞 控制 安全 和 其 他 相关 问题 。 拥 塞 
控制 是 网 络 研究 领域 的 热点 [RFC6077]， 每 年 都 会 有 相关 论文 发 表 。 


16.1.2 减缓 TCP 发 送 


一 个 焉 待 解决 的 问题 是 ， 如 何 减缓 TCP 发 送 。 在 第 15 章 已 经 提 到 ， 根 据 接收 方 剩余 组 
存 空间 大 小 ， 在 TCP 头 部 设置 了 通知 窗口 大 小 字段 ， 该 数值 是 TCP 发 送 方 调节 发 送 速率 的 
依据 。 进 一 步 说 ， 当 接收 速率 或 网 络 传输 速率 过 慢 时 ， 我 们 需要 降低 发 送 速 率 。 为 实现 上 述 
操作 ， 基 于 对 网 络 传输 能 力 的 估计 ， 可 以 在 发 送 端 引入 一 个 窗口 控制 变量 ,确保 发 送 窗口 大 
小 不 超过 接收 端 接收 能 力 和 网 络 传 输 能 力 ， 即 TCP 发 送 端的 发 送 速率 等 于 接收 速率 和 传输 
速率 两 者 中 较 小 值 。 

反映 网 络 传输 能 力 的 变量 称 为 拥塞 窗口 (congestion window)， 记 作 cwnd。 因 此 ， 发 送 
端 实际 (可 用 ) 窗口 下 就 是 接收 端 通知 窗口 awnd 和 拥塞 窗口 cwnd 的 较 小 者 : 

W= min (cwnd, awnd) 

根据 上 述 等 式 ，TCP 发 送 端 发 送 的 数据 中 ， 还 没有 收 到 ACK 回复 的 数据 量 不 能 多 于 W 
(以 包 或 字 节 为 单位 )。 这 种 已 经 发 出 但 还 未 经 确认 的 数据 量 大 小 有 时 称 为 在 外 数据 值 flight 
size)， 它 总 是 小 于 等 于 不 。 通 常 ， 丈 可 以 以 包 或 字 节 为 单位 。 


注意 ” 当 TCP 不 使 用 选择 确认 机 制 时 ， 于 的 限制 作用 体现 为 ， 发 送 方 发 送 的 报 文 
段 序 列 号 不 能 大 于 ACK 号 的 最 大 值 与 夯 之 和 。 而 对 采用 选择 确认 的 发 送 方 则 有 所 
不 同 ， 环 被 用 来 限制 在 外 数据 值 。 


这 看 似 合乎 逻辑 ,但 实际 并 非 如 此 。 因 为 网 络 和 接收 端 状况 会 随时 间 变 化 ， 相 应 地 ， 
awnd 和 cwnd 的 数值 也 会 随 之 改变 。 另 外 ， 由 于 缺少 显示 拥塞 的 明确 信号 (参见 前 述 章节 )， 
TCP 发 送 方 无 法 直接 获得 cwnd 的 “准确 ” 值 。 因 此 ， 变 量 W, cwnd, awnd 的 值 都 要 根据 
经 验 设 定 并 需 动 态 调节 。 此 外 ， 如 前 所 述 ， 球 的 值 不 能 过 大 或 过 小 一 一 我 们 希望 其 接近 带宽 
延迟 积 (Bandwidth-Delay Product，BDP)， 也 称 作 最 佳 窗口 大 小 (optimal window size), W 
反映 网 络 中 可 存储 的 待 发 送 数据 量 大 小 ， 其 计算 值 等 于 RTT 与 链 路 中 最 小 通行 速率 ( 即 发 
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送 端 与 接收 端 传输 路 径 中 的 “瓶颈 ”) 的 乘积 。 通 常 的 策略 是 ， 为 使 网 络 资源 得 到 高 效 利用 ， 
应 保证 在 网 络 中 传输 的 数据 量 达 到 BDP。 但 若 在 传输 数据 值 远 高 于 BDP 时 ， 会 引入 不 必要 
的 延 时 (参见 16.10 节 )， 所 以 这 也 是 不 可 取 的 。 在 网 络 中 如 何 确定 一 个 连接 的 BDP 是 难点 ， 
需要 考虑 诸多 因素 ， 如 路 由 、 时 延 、 统 计 复 用 ( 即 共 用 传输 资源 ) 水 平 随时 间 的 变化 性 等 。 


注意 ”这 里 我 们 主要 讨论 由 TCP 发 送 方 的 数据 发 送 而 产生 的 拥塞 ， 但 也 要 注意 因 

e 接收 方 回 复 ACK 而 产生 的 相反 方向 链 路 上 的 拥塞 ， 目 前 也 有 相关 研究 针对 这 一 问 
题 。 在 文献 [RFC5690] 中 介绍 了 一 种 方法 ， 该 方法 中 TCP 接收 方 需要 根据 一 定 比 
ZA ACK ( 即 接收 了 多 少 个 数据 包 后 才能 发 送 一 个 ACK)。 


16.2 一 些 经 典 算法 

当 一 个 新 的 TCP 连接 建立 之 初 ， 还 无 法 获知 可 用 的 传输 资源 ， 所 以 cwnd 的 初始 值 也 
无 法 确定 。( 也 有 一 些 例外 ， 如 有 些 系统 的 缓存 容量 是 预先 设 定 的 ， 在 第 14 章 我 们 称 其 为 目 
的 度量 (destination metric)。) TCP 通过 与 接收 端 交换 一 个 数据 包 就 能 获得 awnd 的 值 ， 不 需 
要 任何 明确 的 信号 。 显 而 易 见 ， 获 得 cwnd 最 佳 值 的 唯一 方法 是 以 越 来 越 快 的 速率 不 断 发 送 
数据 ， 直 到 出 现 数据 包 丢 失 (或 网 络 拥塞 ) 为 止 。 这 时 考虑 立即 以 可 用 的 最 大 速率 发 送 ( 受 
awnd 的 限制 )， 或 是 慢 速 启动 发 送 。 由 于 多 个 TCP 连接 共享 一 个 网 络 传输 路 径 ， 以 全 速 启 动 
会 影响 其 他 连接 的 传输 性 能 ， 所 以 通常 会 有 特定 的 算法 来 避免 过 快 启动 ， 直 至 稳定 传输 后 才 
会 运行 相应 的 其 他 算法 。 

TCP 发 送 方 的 拥塞 控制 操作 是 由 ACK 的 接收 来 驱动 或 “控制 ”的 。 当 TCP 传输 处 于 稳 
定 阶段 (cwnd 取 合 适 值 )， 接 收 到 ACK 回复 表明 发 送 的 数据 包 已 被 成 功 接收 ， 因 此 可 以 继续 
发 送 操作 。 据 此 推理 ， 稳 定 状 态 下 的 TCP 拥塞 行为 ， 实 际 是 试图 使 在 网 络 传输 路 径 上 的 数 
据 包 守恒 (参见 图 16-1 )。 这 里 的 守恒 是 从 物理 学 意义 上 而 言 的 一 一 某 个 量 (如 动量 、 能 量 ) 
进入 一 个 系统 不 会 凭空 消失 或 出 现 ， 而 是 以 某 种 表现 形式 继续 存在 。 





图 16-1 TCP 拥塞 控制 操作 是 基于 数据 包 守 恒 原 理 运 行 的 。 由 于 传输 能 力 有 限 ， 数 据 包 ( Po) 会 适时 
地 “伸展 ” 。 接 收 方 以 一 定 间 隔 P) 接收 到 数据 包 后 ， 会 陆续 (以 4; 为 间隔 ) 生成 相应 的 
ACK， 以 一 定 的 发 送 间隔 (Ay) 返回 给 发 送 方 。 当 ACK 陆续 (以 A, 为 间隔 ) 到 达 发 送 端 时 ， 
其 到 达 提 供 了 一 个 信号 或 者 说 “ACK 时 钟 "， 表 明 发 送 端 可 以 继续 发 送 数据 。 在 稳定 传输 状 
态 下 ， 整 个 系统 可 “ 自 同步 ”控制 (本 图 改编 自 [J88]， 源 于 S. Seshan’ s CMU Lecture Notes, 
2005.3.22 ) 


如 图 16-1 所 示 ， 上 下 两 条 通道 形似 “漏斗 ”。 发 送 方 发 送 的 ( 较 大 ) 数据 包 经 上 通道 传 
输 给 接收 方 。 相 对 较 狭 罕 部 分 表示 传输 较 慢 的 连接 链 路 ， 数 据 包 需 要 适时 地 被 “伸展 " 。 两 
端 部 分 (位 于 发 送 方 和 接收 方 ) 是 数据 包 发 送 前 和 接收 后 的 队列 。 下 通道 传输 相应 ACK 数据 
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包 。 在 高 效 传输 的 稳定 状态 下 ， 上 下 通道 都 不 会 出 现 包 堵塞 的 情况 ， 而 且 在 上 通道 中 也 不 会 
有 较 大 传输 间隔 。 注 意 到 发 送 方 接收 到 一 个 ACK 就 表明 可 向 图 16-1 中 的 上 层 通道 发 送 一 个 
数据 包 ( 即 网 络 中 可 容纳 另 一 个 包 )。 这 种 由 一 个 ACK 到 达 ( 称 作 ACK 时 钟 ) 触发 一 个 新 数 
据 包 传输 的 关系 称 为 自 同步 (self-clocking)。 

现在 我 们 讨论 TCP 的 两 个 核心 算法 : 慢 启 动 和 拥塞 避免 。 这 两 个 算法 是 基于 包 守 恒 和 
ACK 时 钟 原理 ， 最 早 在 Jacobson [J88] 的 经 典 论文 里 被 正式 提出 。 几 年 后 ，Jacobson 对 拥塞 
避免 算法 提出 了 改进 [J90]。 这 两 个 算法 不 是 同时 运行 的 一 一 在 任 一 给 定时 刻 ，TCP 只 运行 
一 个 算法 ,但 两 者 可 以 相互 切换 。 下 面 我 们 将 详细 讨论 这 两 个 算法 ， 包括 如 何 使 用 以 及 对 算 
法 的 改进 。 每 个 TCP 连接 都 能 独立 运行 这 两 个 算法 。 


16.2.1 BAZ) 


当 一 个 新 的 TCP 连接 建立 或 检测 到 由 重 传 超时 (RTO) 导致 的 丢 包 时 ， 需 要 执行 慢 启 
动 。TCP 发 送 端 长 时 间 处 于 空闲 状态 也 可 能 调用 慢 启 动 算法 。 慢 启动 的 目的 是 , 使 TCP 在 
用 拥塞 避免 探寻 更 多 可 用 带宽 之 前 得 到 cwnd 值 ， 以 及 帮助 TCP 建立 ACK 时 钟 。 通 常 ， 
TCP 在 建立 新 连接 时 执行 慢 启 动 ， 直 至 有 丢 包 时 ， 执 行 拥塞 避免 算法 (参见 16.2.2 节 ) 进入 
稳定 状态 。 下 文 引 自 [RFC5681]: 


在 传输 初始 阶段 ， 由 于 未 知 网 络 传输 能 力 ， 需 要 缓慢 探测 可 用 传输 资源 ， 防 止 
短 时 间 内 大 量 数据 注入 导致 拥塞 。 慢 局 动 算 法 正 是 针对 这 一 问题 而 设计 。 在 数据 传 
输 之 初 或 者 重 传 计时 器 检测 到 丢 包 后 ， 需 要 执行 慢 启 动 。 


TCP 以 发 送 一 定数 目的 数据 段 开 始 慢 启动 (在 SYN 交换 之 后 )， 称 为 初始 窗口 (Initial 
Window, IW). IW 的 值 初始 设 为 一 个 SMSS (发 送 方 的 最 大 段 大 小 )， 但 在 [RFC5681] Pik 
为 一 个 稍 大 的 值 ， 计 算 公 式 如 下 : 

IW = 2* (SMSS) 且 小 于 等 于 2 个 数据 段 ( 当 SMSS > 2190 字 节 ) 
IW = 3* (SMSS) 且 小 于 等 于 3 个 数据 段 ( 当 2190 => SMSS > 1095 字 节 ) 
IW = 4* (SMSS) 且 小 于 等 于 4 个 数据 段 (其 他 ) 

ER IW 的 计算 方式 可 能 使 得 初始 窗口 为 几 个 数据 包 大 小 (如 3 个 或 4 个 )， 为 简单 起 
见 ， 我 们 只 讨论 IW = 1 SMSS 的 情况 。TCP 连接 初始 的 cwnd = 1 SMSS， 意 味 着 初始 可 用 
窗口 天 也 为 1 SMSS。 注 意 到 大 部 分 情况 下 ，SMSS 为 接收 方 的 MSS (最 大 段 大 小 ) 和 路 径 
MTU (最 大 传输 单元 ) 两 者 中 较 小 值 。 

假设 没有 出 现 丢 包 情 况且 每 个 数据 包 都 有 相应 的 ACK， 第 一 个 数据 段 的 ACK 到 达 ， 说 
明 可 发 送 一 个 新 的 数据 段 。 每 接收 到 一 个 好 的 ACK 响应 ， 慢 启动 算法 会 以 min (N, SMSS) 
来 增加 cwnd 值 。 这 里 的 N 是 指 在 未 经 确认 的 传输 数据 中 能 通过 这 一 “好 的 ACK ”确认 的 字 
节 数 。 所 谓 的 “好 的 ACK” 是 指 新 接收 的 ACK 号 大 于 之 前 收 到 的 ACK. 


注意 已 被 ACK 确认 的 字 节 数目 用 于 支持 适当 字 节 计数 (Appropriate Byte Counting, 
ABC) [RFC3465]， 这 是 [RFC5681] 推荐 的 实验 规范 。ABC 用 于 计数 “ACK 分 裂 ” 
攻击 (将 在 16.12 节气 述 )， 指 利用 许多 较 小 ACK 使 TCP 发 送 方 加 速 发 送 。Linux 利 
用 布尔 系统 配置 变量 net.ipv4.tcp abe 设 定 ABC 是 否 可 用 (默认 不 可 用 )。 在 最 近 的 
几 个 Windows 版 本 中 ，ABC 默认 开启 。 
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因此 ， 在 接收 到 一 个 数据 段 的 ACK 后 ,通常 cwnd 值 会 增加 到 2， 接 着 会 发 送 两 个 数据 
段 。 如 果 成 功 收 到 相应 的 新 的 ACK，cwnd 会 由 2 484, 由 4 变 8， 以 此 类 推 。 一 般 情况 下 ， 
假设 没有 丢 包 且 每 个 数据 包 都 有 相应 ACK, FER WEN w= 2", BI k= logW, mE 
A RTT 时 间 操 作 窗口 才能 达到 历 大 小 。 这 种 增长 看 似 很 快 (以 指数 函数 增长 )， 但 若 与 一 
开始 就 允许 以 最 大 可 用 速率 ( 即 接收 方 通知 窗口 大 小 ) 发 送 相 比 ， 仍 显 缓慢 。( 丈 不 会 超过 
awnd。) 

P 如 果 假设 某 个 TOP 连接 中 接收 方 的 通知 窗口 非常 大 (比如 说 ,无 穷 大 )， 这 时 cwnd 就 是 
影响 发 送 速率 的 主要 因素 ( 设 发 送 方 有 较 大 发 送 需 求 )。 如 前 所 述 ，cwnd 会 随 着 RTT 呈 指 数 
增长 。 因 此 ， 最 终 cwnd ( 丈 也 如 此 ) 会 增 至 很 大 ， 大 量 数据 包 的 发 送 将 导致 网 络 瘫痪 (TCP 
吞吐 量 与 W/RTT 成 正比 )。 当 发 生 上 述 情况 时 ，cwnd 将 大 幅度 减 小 ( 减 至 原 值 一 半 )。 这 是 
TCP 由 慢 启 动 阶段 至 拥塞 避免 阶段 的 转折 点 ， 与 ownd 和 慢 启 动 阅 值 (slow start threshold, 
ssthresh) 相关 。 

图 16-2 (Æ) 描述 了 慢 启 动 操 作 。 数 值 部 分 以 RTT 为 单位 。 假 设 该 连接 首先 发 送 一 个 
包 (图 上 部 )， 返回 一 个 ACK， 接 着 在 第 二 个 RTT 时 间 里 发 送 两 个 包 ， 会 接收 到 两 个 ACK。 
TCP 发 送 方 每 接收 一 个 ACK 就 会 执行 一 次 cwnd 的 增长 操作 ， 以 此 类 推 。 右 图 描述 了 cwnd 
随时 间 增 长 的 指数 函数 。 图 中 另 一 条 曲线 显示 了 每 两 个 数据 包 收 到 一 个 ACK 时 cwnd 的 增长 
情况 。 通 常 在 ACK 延 时 情况 下 会 采用 这 种 方式 ， 这 时 的 cwnd 仍 以 指数 增长 ， 只 是 增幅 不 是 
很 大 。 正 因 ACK 可 能 会 延 时 到 达 ， 所 以 一 些 TCP 操作 只 在 慢 启动 阶段 完成 后 才 返 回 ACK. 
Linux 系统 中 ， 这 被 称 为 快速 确认 (“快速 ACK 模式 ” )， 从 内 核 版 本 2.4.4 开始 ， 快 速 确认 
一 直 是 基本 TCP/IP 协议 栈 的 一 部 分 。 
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RTT {fi 
图 16-2 经 典 慢 启动 算法 操作 。 在 没有 ACK 延 时 情况 下 ， 每 接收 到 一 个 好 的 ACK 就 意味 着 发 送 方 可 以 
发 送 两 个 新 的 数据 包 ( 左 )。 这 会 使 得 发 送 方 窗口 随时 间 呈 指数 增长 ( 右 ， 上 方 曲 线 )。 当 发 生 
ACK 延 时 ， 如 每 隔 一 个 数据 包 生 成 一 个 ACK, cwnd 仍 以 指数 增长 ， 但 增幅 较 小 ( 右 ， 下 方 曲线 ) 


16.2.2 ”拥塞 避免 
如 上 所 述 ， 在 连接 建立 之 初 以 及 由 超时 判定 丢 包 发 生 的 情况 下 ， 需 要 执行 慢 启 动 操 作 。 
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在 慢 启 动 阶段 ，cwnd 会 快速 增长 ， 帮 助 确 立 一 个 慢 启动 阔 值 。 一 旦 达到 阔 值 ， 就 意味 着 可 
能 有 更 多 可 用 的 传输 资源 。 如 果 立 即 全 部 占用 这 些 资源 ， 将 会 使 共享 路 由 器 队列 的 其 他 连接 
出 现 严重 的 丢 包 和 重 传情 况 ， 从 而 导致 整个 网 络 性 能 不 稳定 。 

为 了 得 到 更 多 的 传输 资源 而 不 致 影响 其 他 连接 传输 ，TCP 实现 了 拥塞 避免 算法 。 一 旦 确 
立 慢 启动 阔 值 , TCP 会 进入 拥塞 避免 阶段 , cwnd 每 次 的 增长 值 近似 于 成 功 传输 的 数据 段 大 小 。 
这 种 随时 间 线 性 增长 方式 与 慢 启动 的 指数 增长 相 比 缓慢 许多 。 更 准确 地 说 ， 每 接收 一 个 新 的 
ACK，cwnd 会 做 以 下 更 新 : 

cwnd,+, = cwnd, + SMSS * SMSS/cwnd, 

分 析 上 式 ， 假 设 cwnd = k*SMSS 字 节 分 大 段 发 送 ， 在 接收 到 第 一 个 ACK Ja, cwnd 的 

值 增长 了 1 倍 : 
cwnd, = cwndo + SMSS*SMSS/cwndo = k*SMSS + SMSS * (SMSS/ (k * SMSS) ) 
= k * SMSS + (1/k) *SMSS = (k + (1/k) ) *SMSS = cwndo + (1/k) *SMSS 

随 着 每 个 新 的 ACK 到 达 ，cwnd 会 有 相应 的 小 幅 增 长 (取决 于 上 式 中 的 值 )， 整 体 增 
长 率 呈 现 轻微 的 次 线性 。 尽 管 如 此 ， 我 们 通常 认为 拥塞 避免 阶段 的 窗口 随时 间 线 性 增长 ( 见 
图 16-3 )， 而 慢 启 动 阶段 呈 指 数 增长 ( 见 图 16-2 ) 。 这 个 函数 也 称 为 累加 增长 ,因为 每 成 功 接 
收 到 相应 数据 ，cwnd 就 会 增加 一 个 特定 值 (这 里 大 约 是 一 个 包 大 小 )。 
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图 16-3 拥塞 避免 算法 操作 。 若 没有 ACK 延 时 发 生 ， 每 接收 一 个 好 的 ACK， 就 意味 着 发 送 方 可 继续 
发 送 1/ 刺 个 新 的 数据 包 。 发 送 窗 口 随时 间 近 似 呈 线性 增长 《 右 ， 上 方 曲线 )。 当 有 ACK 延 时 ， 
如 每 隔 一 个 数据 包 生 成 一 个 ACK，cwnd 仍 近似 呈 线 性 增长 ， 只 是 增幅 较 小 ( 右 ， 下 方 曲线 ) 


图 16-3 (Æ) 描述 了 拥塞 避免 操作 。 数 值 部 分 仍 是 以 RTT 为 单位 。 假 设 连接 发 送 了 4 个 
数据 包 (图 上 方 )， BES 44 ACK, cwnd 可 以 有 相应 的 增长 。 在 第 2 个 RIT 阶段 ， 增 长 
可 达到 整数 值 ， 使 得 cwnd 增加 一 个 SMSS， 这 样 可 以 继续 发 送 一 个 新 的 数据 包 。 右 图 描绘 
了 cwnd 随时 间 近 似 呈 线性 增长 。 另 一 曲线 模拟 ACK 延 时 ， 显 示 了 每 两 个 数据 包 收 到 一 个 
ACK 时 cwnd 的 增长 情况 。 这 时 的 ewnd 仍 近 似 呈 线性 增长 ， 只 是 增幅 不 是 很 大 。 

拥塞 避免 算法 假设 由 比特 错误 导致 包 丢 失 的 概率 很 小 ( 远 小 于 1%)， 因 此 有 丢 包 发 生 就 
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表明 从 源 端 到 目的 端 必 有 某 处 出 现 了 拥塞 。 如 果 假 设 不 成 立 ， 比 如 在 无 线 网 络 中 ,那么 即使 
没有 拥塞 TCP 传输 也 会 变 慢 。 另 外 ，cwnd 的 增 大 可 能 会 经 历 多 个 RTT， 这 就 需要 有 充裕 的 网 
络 资源 ， 并 得 到 高 效 利用 。 这 些 问题 还 有 很 大 的 研究 空间 ， 以 后 我 们 将 会 讨论 其 中 一 些 方 法 。 


16.2.3” 慢 启动 和 拥塞 避免 的 选择 


在 通常 操作 中 ， 某 个 TCP 连接 总 是 选择 运行 慢 启 动 和 拥塞 避免 中 的 一 个 ， 不 会 出 现 两 
者 向 时 进行 的 情况 。 现 在 我 们 考虑 ， 在 任 一 给 定时 刻 如 何 决定 选用 哪 种 算法 。 我 们 已 经 知 
道 ， 慢 启动 是 在 连接 建立 之 初 以 及 超时 发 生 时 执行 的 。 那 么 决定 使 用 慢 启动 还 是 拥塞 避免 的 
关键 因素 是 什么 呢 ? 

前 面 我 们 已 经 提 到 过 慢 启动 阔 值 。 这 个 值 和 cwnd 的 关系 是 决定 采用 慢 启 动 还 是 拥塞 避 
免 的 界线 s 当 cwnd < ssthresh， 使 用 慢 启动 算法 ; “4 cwnd > ssthresh， 需 要 执行 拥塞 避免 ; 
而 当 两 者 相等 时 ， 任 何 一 种 算法 都 可 以 使 用 。 由 上 面 描述 可 以 得 出 ， 慢 启动 和 拥塞 避免 之 间 
最 大 的 区 别 在 于 ， 当 新 的 ACK 到 达 时 , cwnd 怎样 增长 。 有 趣 的 是 ， 慢 启动 阔 值 不 是 固定 的 ， 
而 是 随时 间 改 变 的 。 它 的 主要 目的 是 ， 在 没有 丢 包 发 生 的 情况 下 ， 记 住 上 一 次 “最 好 的 ” 操 
作 窗 口 估计 值 。 换 言 之 ， 它 记录 TCP 最 优 窗口 估计 值 的 下 界 。 

慢 启动 阔 值 的 初始 值 可 任意 设 定 (如 awnd 或 更 大 )， 这 会 使 得 TCP 总 是 以 慢 启动 状态 开 
始 传输 。 当 有 重 传情 况 发 生 ， 无 论 是 超时 重 传 还 是 快速 重 传 ，ssthresh 会 按 下 式 改变 : 

ssthresh = max ( 在 外 数据 值 /2, 2*SMSS) (16-1 ) 


注意 微软 最 近 的 (“下 一 代 ”) TCP/IP 协议 栈 中 ， 上 述 等 式 变 为 ssthresh = 
max (min (cwnd, awnd) /2, 2*SMSS) [NB08]。 


我 们 已 经 知道 ， 如 果 出 现 重 传情 况 ，TCP 会 认为 操作 窗口 超出 了 网 络 传输 能 力 范 围 。 这 
时 会 将 慢 启动 阔 值 (ssthresh) 减 小 至 当前 窗口 大 小 的 一 半 (但 不 小 于 2*SMSS)， 从 而 减 小 最 
优 窗口 估计 值 。 这 样 通常 会 导致 ssthresh 减 小 ， 但 也 有 可 能 会 使 之 增 大 。 分 析 TCP 拥塞 避 
免 的 操作 流程 ， 如 果 整 个 窗口 的 数据 都 成 功 传输 ， 那 么 cwnd 值 可 以 近似 增 大 1 SMSS。 因 
此 ， 若 cwnd 在 一 段 时 间 范 围 内 已 经 增 大 ， 将 ssthresh 设 为 整个 窗口 大 小 的 一 半 可 能 使 其 增 
大 。 这 种 情况 发 生 在 当 TCP 探测 到 更 多 可 用 带宽 时 。 在 慢 启 动 和 拥塞 避免 结合 的 情况 下 ， 
ssthresh 和 cwnd 的 相互 作用 使 得 TCP 拥塞 处 理 行为 显现 其 独 有 特性 。 下 面 我 们 探讨 将 两 者 
结合 的 完整 的 算法 。 


16.2.4 Tahoe, Reno 以 及 快速 恢复 算法 


至 此 讨论 的 慢 启动 和 拥塞 避免 算法 ， 组 成 了 TCP 拥塞 控制 算法 的 第 一 部 分 。 它 们 于 20 
世纪 80 年 代 末 期 在 加 州 大 学 伯克利 分 校 的 4.2 版 本 的 UNIX 系统 中 被 提出 ， 称 为 伯克利 软件 
版 本 ,或 BSD UNIX。 至 此 开始 了 以 美国 城市 名 命名 各 个 TCP 版 本 的 习惯 ， 尤 其 是 那些 赌博 
合法 的 城市 。 

4.2 版 本 的 BSD ( 称 为 Tahoe) 包含 了 一 个 TCP 版 本 ， 它 在 连接 之 初 处 于 慢 启 动 阶段 ， 
若 检测 到 丢 包 ， 不 论 由 于 超时 还 是 快速 重 传 ， 都 会 重新 进入 慢 启动 状态 。 有 丢 包 情况 发 生 
时 ，Tahoe 简单 地 将 cwnd 减 为 初始 值 (当时 设 为 1 SMSS) 以 达到 慢 启 动 目的 ， 直 至 cwnd 
增长 为 ssthresh。 

这 种 方法 带 来 的 一 个 问题 是 ， 对 于 有 较 大 BDP 的 链 路 来 说 ， 会 使 得 带宽 利用 率 低下 。 
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因为 TCP 发 送 方 经 重新 慢 启 动 ， 回 归 到 的 还 是 未 丢 包 状态 (cwnd 启动 初始 值 设置 过 小 )。 
为 解决 这 一 问题 ， 针 对 不 同 的 丢 包 情况 ， 重 新 考虑 是 否 需 要 重 回 慢 启动 状态 。 若 是 由 重复 
ACK 引起 的 丢 包 (引发 快速 重 传 )，cwnd 值 将 被 设 为 上 一 个 ssthresh， 而 非 先 前 的 1 SMSS。 
(在 大 多 数 TCP 版 本 中 ， 超 时 仍 是 引发 慢 启 动 的 主要 原因 。) 这 种 方法 使 得 TCP 无 须 重新 慢 
启动 ， 而 只 要 把 传输 速率 减 半 即 可 。 

进一步 讨论 较 大 BDP 链 路 的 情况 ， 结 合 之 前 提 到 的 包 守 恒 原 理 ， 我 们 可 以 得 出 结论 ， 
只 要 接收 到 ACK 回复 (包括 重 传 ACK)， 就 有 可 能 传输 新 的 数据 包 。BSD UNIX 的 4.3 BSD 
Reno 版 中 的 快速 恢复 机 制 就 是 基于 上 述 结 论 。 在 恢复 阶段 ， 每 收 到 一 个 ACK，cwnd 就 能 
(临时 ) 增长 1 SMSS， 相 应 地 就 意味 着 能 发 送 一 个 新 的 数据 包 。 因 此 拥塞 窗口 在 一 段 时 间 内 
会 急速 增长 ， 直 到 接收 一 个 好 的 ACK。 不 重复 的 (“好 的 ”) ACK 表明 TCP 结束 恢复 阶段 ， 
拥塞 已 减少 到 之 前 状态 。TCP Reno 算法 得 到 了 广泛 应 用 ， 并 成 为 “标准 TCP” 的 基础 。 


16.2.5 标准 TCP 


尽管 究竟 哪些 构成 了 “标准 ”TCP 还 存在 争议 ， 但 我 们 讨论 过 的 上 述 算法 毋庸 置疑 都 属 
于 标准 TCP。 慢 启动 和 拥塞 避免 算法 通常 结合 使 用 ，[RFC5681] 给 出 了 其 基本 方法 。 这 个 规 
范 并 不 要 求 严格 使 用 这 些 精确 算法 ，TCP 实现 过 程 仅 利用 其 核心 思想 。 

总 结 [RFC5681] 中 的 结合 算法 ， 在 TCP 连接 建立 之 初 首先 是 慢 启 动 阶段 ( cwnd = IW), 
ssthresh 通常 取 一 较 大 值 (至 少 为 awnd)。 当 接收 到 一 个 好 的 ACK (表明 新 的 数据 传输 成 功 )， 
cwnd 会 相应 更 新 : 

cwnd += SMSS ( 若 cwnd < ssthresh) 慢 启 动 
cwnd += SMSS*SMSS/cwnd ( 若 cwnd > ssthresh) 拥塞 避免 

当 收 到 三 次 重复 ACK (或 其 他 表明 需要 快速 重 传 的 信号 ) 时 ,会 执行 以 下 行为 : 

1. ssthresh 更 新 为 大 于 等 式 (16-1) 中 的 值 。 

2. 启用 快速 重 传 算法 ， 将 cwnd 设 为 (ssthresh + 3*SMSS)。 

3. 每 接收 一 个 重复 ACK，cwnd 值 暂时 增加 1 SMSS。 

4. 当 接 收 到 一 个 好 的 ACK, 将 cwnd 重 设 为 ssthresh。 

以 上 第 2 步 和 第 3 步 构 成 了 快速 恢复 。 步 骤 2 设 置 cwnd 大 小 ， 首 先 cwnd 通常 会 被 减 
为 之 前 值 的 一 半 。 然 后 ， 考 虑 到 每 接收 一 个 重复 ACK， 就 意味 着 相应 的 数据 包 已 成 功 传输 
(因此 新 的 数据 包 就 有 发 送 机 会 )， cwnd 值 会 相应 地 暂时 增 大 。 这 一 步 也 可 能 出 现 cwnd 加 
速递 减 的 情况 ， 因 为 通常 cwnd 会 乘 以 某 个 值 (这 里 取 0.5 ) 来 形成 新 的 cwnd。 步 又 3 维持 
cwnd 的 增 大 过 程 ， 使 得 发 送 方 可 以 继续 发 送 新 的 数据 包 (在 不 超过 awnd 的 情况 下 )。 步 骤 4 
假设 TCP 已 完成 恢复 阶段 ， 所 以 cwnd 的 临时 膨胀 也 消除 了 (有 时 称 这 一 步 为 “收缩 ”)。 

以 下 两 种 情况 总 会 执行 慢 启动 : 新 连接 的 建立 以 及 出 现 重 传 超 时 。 当 发 送 方 长 时 间 处 于 
空闲 状态 ， 或 者 有 理由 怀疑 cwnd 不 能 精确 反映 网 络 当前 拥塞 状态 (参见 16.3.5 节 ) 时 ， 也 可 
能 引发 慢 启动 。 在 这 种 情况 下 ，cwnd 的 初始 值 将 被 设 为 重启 窗口 (RW)。 在 文献 [RFC5681] 
中 ,推荐 RW 值 为 RW = min (IW, cwnd)。 其 他 情况 下 ， 慢 启动 中 cwnd 初始 设 为 IW。 


16.3 ”对 标准 算法 的 改进 
经 典 的 标准 TCP 算法 在 传输 控制 领域 做 出 了 重大 贡献 ， 尤 其 针对 网 络 拥塞 崩溃 这 一 难 
题 ， 取 得 了 显著 效果 。 
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注意 在 1986 ~ 1988 年 ， 网 络 拥塞 前 溃 是 引起 广泛 关注 的 难点 问题 1986 F 10 月 ， 
作为 早期 互联 网 的 重要 组 成 部 分 ，NSFNET 主干 网 出 现 了 一 次 严重 故障 ， 运 行 速度 
仅 为 其 应 有 速度 的 千 分 之 一 ( 称 为 “NSFNET 危机 ”)。 问 题 的 主要 形成 原因 在 于 对 
大 量 的 重 传 没有 任何 控制 操作 。 持 续 的 拥塞 状态 导致 了 更 严重 的 丢 包 现象 (由 于 更 
多 的 重 传 操作 ) 和 吞吐 量 低下 。 采 用 经 典 拥塞 控制 算法 有 效 地 解决 了 这 一 问题 。 


gp 然而 ， 仍 然 可 以 找到 值得 改进 的 地 方 。 考 虑 到 TCP 的 普遍 使 用 性 ， 越 来 越 多 的 研究 臻 
力 于 使 TCP 在 更 广泛 的 环境 里 更 好 地 工作 。 下 面 我 们 提出 几 种 方法 ， 现 在 许多 TCP 版 本 也 
已 经 实现 。 


16.3.1 NewReno 


快速 恢复 带 来 的 一 个 问题 是 ， 当 一 个 传输 窗口 出 现 多 个 数据 包 丢 失 时 ， 一旦 其 中 一 个 包 
重 传 成 功 ， 发 送 方 就 会 接收 到 一 个 好 的 ACK， 这 样 快速 恢复 阶段 中 cwnd 窗口 的 暂时 膨胀 就 
会 停止 ， 而 事实 上 丢失 的 其 他 数据 包 可 能 并 未 完成 重 传 。 导 致 出 现 这 种 状况 的 ACK 称 为 局 
部 ACK (partial ACK), Reno 算法 在 接收 到 局 部 ACK 后 就 停止 拥塞 窗口 膨胀 阶段 ， 并 将 其 
减 小 至 特定 值 ， 这 种 做 法 可 能 导致 在 重 传 计时 器 超时 之 前 ， 传 输 通道 一 直 处 于 空闲 状态 。 为 
理解 出 现 这 种 情况 的 原因 ， 我 们 首先 明确 ，TCP (无 选择 确认 机 制 ) 需要 通过 三 个 (或 重复 
阅 值 ) 重复 ACK 包 作为 信号 才能 触发 快速 重 传 机 制 。 假 如 网 络 中 没有 足够 的 数据 包 在 传输 ， 
那么 就 不 可 能 因 丢 包 而 触发 快速 重 传 ， 最 终 导致 重 传 计 时 器 超时 ， 引 发 慢 启动 操作 ， 从 而 严 
重 影响 网 络 吞吐 性 能 。 

为 解决 上 述 问题 ，[RFC3782] 提出 了 一 种 改进 算法 ， 称 为 NewReno。 该 算法 对 快速 恢复 
做 出 了 改进 ， 它 记录 了 上 一 个 数据 传输 窗口 的 最 高 序列 号 〈 即 我 们 在 第 14 章 提 到 的 恢复 点 )。 
仅 当 接收 到 序列 号 不 小 于 恢复 点 的 ACK， 才 停止 快速 恢复 阶段 。 这 样 TCP 发 送 方 每 接收 一 
个 ACK 后 就 能 继续 发 送 一 个 新 数据 段 ， 从 而 减少 重 传 超 时 的 发 生 ， 特 别针 对 一 个 窗口 出 现 
多 个 包 丢 失 的 情况 时 。NewReno 是 现在 比较 常用 的 一 个 TCP 版 本 ， 它 不 会 出 现 经 典 快速 重 
传 的 问题 ， 实 现 起 来 也 没有 选择 确认 (SACK) 复杂 。 然 而 ， 当 出 现 上 述 多 个 丢 包 情况 时 ， 
利用 SACK 机 制 能 比 NewReno 获得 更 好 的 性 能 ， 但 需要 较为 复杂 的 拥塞 控制 操作 ， 下 面 我 
们 会 讨论 这 一 问题 。 


16.3.2 采用 选择 确认 机 制 的 TCP 拥塞 控制 


在 TCP 引入 SACK 与 选择 性 重复 之 后 ， 发 送 方 能 够 更 好 地 确定 发 送 哪个 数据 段 来 填补 
接收 方 的 空缺 (参见 第 14 章 )。 为 了 填补 接收 数据 的 空缺 ， 发 送 方 通常 只 发 送 丢 失 的 数据 段 ， 
直至 完成 所 有 重 传 。 这 和 前 面 提 到 的 基本 的 快速 重 传 /恢复 机 制 有 所 差别 。 

在 快速 重 传 /恢复 情况 下 ， 当 出 现 丢 包 ，TCP 发 送 方 只 重 传 它 认 为 已 经 丢失 的 包 。 如 果 
窗口 不 允许 ， 还 可 以 发 送 新 的 数据 包 。 在 快速 恢复 阶段 ， 由 于 窗口 大 小 会 随 着 每 个 ACK 的 
到 达 而 膨胀 ， 在 完成 重 传 后 ， 通 常 发 送 方 能 有 更 大 的 窗口 发 送 更 多 新 数据 。 采 用 SACK 机 
制 后 ， 发 送 方 可 以 知晓 多 个 数据 段 的 丢失 情况 。 因 为 这 些 数 据 都 在 有 效 窗 口内 ， 理 论 上 可 
以 即时 重 传 。 然 而 ， 这 样 可 能 会 在 较 短 时 间 内 向 网 络 中 注入 大 量 数据 ， 削 弱 拥 塞 控制 效果 。 
SACK TCP 会 引发 以 下 问题 : 在 恢复 阶段 ， 只 使 用 cwnd 作为 发 送 方 滑动 窗口 的 界限 来 表示 
发 送 多 少 个 (以 及 哪些 ) 数据 包 是 不 够 的 ， 且 选择 发 送 哪些 数据 包 与 发 送 时 间 紧 密 相关 。 换 
言 之 ,SACK TCP 强调 拥塞 管理 和 选择 重 传 机 制 的 分 离 。 传 统 (无 SACK)TCP 则 将 两 者 结合 。 
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一 种 实现 分 离 的 方法 是 ， 除 了 维护 窗口 ,TCP 还 负责 记录 注入 网 络 的 数据 量 。[RFC3517] 


称 其 为 管道 (pipe) 变量 ， 这 是 对 在 外 数据 的 估计 值 。 管 道 变量 以 字 节 (或 包 ， 依 不 同 实现 方 


AME) 为 单位 ， 记 录 传 输 和 重 传情 况 (不 考虑 丢 包 ， 将 两 者 同等 对 待 )。 假 设 awnd (ARK, 
只 要 不 等 式 cwnd - pipe > SMSS 成 立 ， 在 任何 时 候 SACK TCP 均 可 发 送 数 据 。 这 里 cwnd 
仍 被 用 来 限定 可 传输 至 网 络 中 的 数据 量 ， 但 除了 窗口 本 身 ， 网 络 中 数据 量 的 估计 值 也 被 记录 
了 。[FF96] 详细 分 析 比 较 了 SACK TCP 和 传统 TCP 的 拥塞 控制 方法 ， 并 做 了 相关 仿真 工作 。 


16.3.3 ”转发 确认 (FACK) 和 速率 减 半 


对 基于 Reno (包括 NewReno) 的 TCP 版 本 来 说 ， 当 快速 重 传 结束 后 cwnd 值 减 小 ， 在 
TCP 发 送 新 数据 之 前 至 少 可 以 接收 一 半 已 发 送 数据 返回 的 ACK。 这 和 检测 到 丢 包 后 立即 将 
拥塞 窗口 值 减 半 相 一 致 。 这 样 TCP 发 送 端 在 前 一 半 的 RTT 时 间 内 处 于 等 待 状态 ， 在 后 一 半 
RTT 才能 发 送 新 数据 ， 这 是 我 们 不 愿 看 到 的 。 

在 丢 包 后 ， 为 避免 出 现 等 待 空闲 而 又 不 违背 将 拥塞 窗口 减 半 的 做 法 ，[MM96] 提出 了 转 
发 确认 (forward acknowledgment, FACK) 策略 。FACK 包含 了 两 部 分 算法 ， 称 为 “过 度 衰减 ” 
(overdamping) 和 “缓慢 衰减 ”( rampdown)。 从 最 初 想法 的 提出 到 改进 ， 最 终 在 Hoe 的 工作 
基础 上 [H96] 形成 了 统一 的 算法 ， 称 为 速率 减 半 (rate halving)。 为 控制 算法 尽 可 能 有 效 地 运 
行 ， 进 一 步 添 加 了 界定 参数 ， 完 整 的 算法 被 称 为 带 界定 参数 的 速率 减 半 ( Rate-Halving with 
Bounding Parameters, RHBP) 算法 [PSCRH]. 

RHBP 的 基本 操作 是 ， 在 一 个 RTT 时 间 内 ， 每 接收 两 个 重复 ACK, TCP 发 送 方 可 发 送 
一 个 新 数据 包 。 这 样 在 恢复 阶段 结束 前 ，TCP 已 经 发 送 了 一 部 分 新 数据 ， 与 之 前 的 所 有 发 送 
都 挤 在 后 半 个 RIT 时 间 段 内 相 比 ， 数 据 发 送 比较 均衡 。 由 于 过 度 集 中 的 发 送 操 作 可 能 持续 
多 个 RTT， 对 路 由 缓存 造成 负担 ， 因 此 均衡 发 送 是 比较 有 利 的 。 

为 了 记录 较为 精确 的 在 外 数据 估计 值 ，RHBP 利用 SACK 信息 决定 FACK 策略 : 已 知 
的 最 大 序列 号 的 数据 到 达 接 收 方 时 ， 在 外 数据 值 加 1。 注 意 区 分 即将 发 送 数据 的 最 大 序列 号 
(图 15-9 中 的 SND.NXT)，FACK 给 出 的 在 外 数据 估计 值 不 包括 重 传 。 

RHBP 中 区 分 了 调整 间隔 (adjustment interval，cwnd 的 修正 阶段 ) 和 恢复 间隔 (repair 
interval， 数 据 重 传 阶段 )。 一 旦 出 现 丢 包 或 其 他 拥塞 信号 就 立即 进入 调整 间隔 。 调 整 间 隔 结 
RJE cwnd 的 最 终 值 为 : 至 检测 时 间 为 止 ， 网络 中 已 正确 传输 的 窗口 数据 量 的 一 半 。RHBP 
要 求 发 送 方 传输 数据 需 满 足下 式 : 

(SND.NXT - fack + retran_data + len) < cwnd 

上 面 的 等 式 得 到 了 包括 重 传 的 在 外 数据 值 ， 确 保 当 继续 发 送 一 个 len 长 度 的 新 数据 ， 也 
不 会 超过 cwnd。 假 设 在 FACK 之 前 的 数据 已 经 不 在 网 络 中 (如 丢失 或 被 接收 )， 这 样 cwnd 
就 能 很 好 地 控制 SACK 发 送 方 的 发 送 。 然 而 由 于 SACK 的 选择 确认 特性 ， 可 能 导致 数据 包 
的 传输 次 序 过 度 重 排 。 

Linux 系统 实现 了 FACK 和 速率 减 半 ， 并 默认 启用 。 若 SACK 开启 ， 并 将 布尔 配置 变量 
net.ipv4.tcp_fack 置 1， 就 会 激活 FACK。 当 检测 到 网 络 中 出 现 数据 包 失 序 ，FACK 的 进一步 
行为 将 被 禁用 。 

速率 减 半 是 调节 发 送 操作 或 避免 集中 发 送 的 方法 之 一 。 我 们 已 经 了 解 了 它 的 优点 , 但 这 
种 方法 仍然 存在 一 些 问题 。[ASA00] 利用 仿真 的 方法 ， 详 细 分 析 了 TCP 发 送 调度 ， 结 果 显 示 
在 很 多 情况 下 ， 它 的 性 能 劣 于 TCP Reno。 另 外 ， 研 究 表明 ， 在 接收 窗口 限制 TCP 连接 的 情 
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况 下 ， 速 率 减 半 方法 收效 甚 微 [MM05]。 


16.3.4 ”限制 传输 


[RFC3042] 提出 了 限制 传输 (limited transmit)， 它 对 TCP 做 出 了 微小 改进 ， 目 的 在 于 使 
TCP 能 在 可 用 窗口 较 小 的 情况 下 更 好 工作 。 之 前 已 经 提 到 ， 在 Reno 算法 中 ， 通常 需要 三 次 
重复 ACK 表明 数据 包 丢失 。 在 窗口 较 小 的 情况 下 ， 当 出 现 竺 包 ， 网 络 中 可 能 没有 足够 的 包 
去 可 发 快速 重 传 /恢复 机 制 。 

采用 限制 传输 策略 ，TCP 发 送 方 每 接收 两 个 连续 的 重复 ACK， 就 能 发 送 一 个 新 数据 包 。 
这 就 使 得 网 络 中 的 数据 包 维 持 一 定数 量 一 一 足以 触发 快速 重 传 。TCP 因此 也 可 以 避免 长 时 
间 等 待 RTO (可 能 达到 几 百 毫秒 ， 相 对 时 间 较 长 ) 而 导致 吞吐 性 能 下 降 。 限 制 传输 已 经 成 为 
TCP 推荐 策略 。 速 率 减 半 也 是 限制 传输 的 一 种 形式 。 


16.3.5 ”拥塞 窗口 校 验 


TCP 拥塞 管理 可 能 会 出 现 一 个 问题 ， 那 就 是 发 送 端 可 能 在 一 段 时 间 内 停止 发 送 (由 于 没 
有 新 数据 需要 发 送 或 者 其 他 原因 阻 住 发 送 )。 通 常情 况 下 ， 发 送 操作 不 会 暂停 。 发 送 端 发 送 
数据 ， 同 时 接收 ACK 反馈 ， 以 此 估计 一 定时 间 内 (一 个 RTT) 的 cwnd 和 ssthresh。 

在 发 送 操作 持续 一 段 时 间 后 ，cwnd 可 能 会 增 至 一 个 较 大 值 。 若 发 送 需 要 暂停 (一 定时 
间 后 会 恢复 )， 根据 此 时 cwnd 的 值 ， 在 暂停 前 发 送 方 仍 可 向 网 络 中 (高速 ) 注入 大 量 数据 。 
车 暂停 时 间 足 够 长 ， 之 前 的 cwnd 可 能 无 法 准确 反映 路 径 中 的 拥塞 状况 。 

[RFC2861] 提出 了 一 种 拥塞 窗口 校 验 ( Congestion Window Validation, CWV) 机 制 。 在 
发 送 长 时 间 暂 停 的 情况 下 ， 由 ssthresh 维护 cwnd 保存 的 “记忆 ”， 之 后 cwnd 值 会 衰减 。 为 
理解 这 种 机 制 ， 需 要 区 分 空闲 (idle) 发 送 端 和 应 用 受 限 ( application-limited) 发 送 端 。 对 空 
闲 发 送 端 而 言 ， 没 有 发 送 新 数据 的 需求 ， 之 前 发 送 的 数据 也 已 经 成 功 接收 ACK。 因 此 ， 整 
个 连接 处 于 空闲 状态 一 一 除了 必要 的 窗口 更 新 外 (参见 第 15 章 )， 没 有 数据 和 ACK 的 传输 。 
应 用 受 限 发 送 端 则 需要 传输 数据 ， 但 由 于 某 种 原因 无 法 发 送 〈 可 能 由 于 处 理 器 正 忙 或 者 下 层 
阻 住 数据 发 送 )。 这 种 情况 会 导致 连接 利用 率 低下 ， 但 并 非 完 全 空闲 ， 之 前 已 发 送 数据 返回 
的 ACK 仍 可 传输 。 

CWV 算法 原理 如 下 : 当 需 要 发 送 新 数据 时 ， 首 先 看 距离 上 次 发 送 操作 是 和 否 超 过 一 个 
RTO。 如 果 超 过 ， 则 

e 更 新 ssthresh 值 一 一 设 为 max (ssthresh, (3/4) *cwnd)。 

e 每 经 一 个 空闲 RTT 时 间 ，cwnd 值 就 减 半 ， 但 不 小 于 1 SMSS, 

对 于 应 用 受 限 阶段 〈 非 空闲 阶段 )， 执 行 相似 的 操作 : 

e 已 使 用 的 窗口 大 小 记 为 W_used。 

e 更 新 ssthresh 值 一 一 设 为 max (ssthresh, (3/4) *cwnd)。 

© cwnd 设 为 cwnd 和 W_used 的 平均 值 。 

上 述 操作 均 减 小 了 cwnd, 1E ssthresh 维护 了 cwnd 的 先前 值 。 第 一 种 情况 中 ， 如 果 传 
输 通道 长 时 间 空 闲 ，cwnd 将 会 显著 减 小 。 在 某 些 情况 下 ， 这 种 拥塞 窗口 的 处 理 方法 可 以 取 
得 更 好 效果 。 根 据 作 者 的 研究 ， 避 免 空 闲 阶段 可 能 发 生 的 大 数据 量 注 入 ， 可 以 减轻 对 有 限 
的 路 由 缓存 的 压力 ， 从 而 减少 丢 包 情况 的 产生 。 注 意 到 CWV 减 小 了 cwnd 值 ， 但 没有 减 小 
ssthresh， 因 此 采用 这 种 算法 的 通常 结果 是 ， 在 长 时 间 发 送 暂 停 后 ， 发 送 方 会 进入 慢 启动 阶 
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Eto Linux TCP 实现 了 CWV 并 默认 启用 。 


16.4 {4A RTO 处 理 一 一 Eifel 响应 算法 


在 第 15 章 已 经 提 到 ， 若 TCP 出 现 突 发 的 延 时 ， 即 使 没有 出 现 丢 包 ， 也 可 能 造成 重 传 超 
时 的 假象 。 这 种 伪 重 传 现象 的 发 生 可 能 由 于 链 路 层 的 某 些 变化 (如 蜂 窜 转 换 )， 也 可 能 是 由 
于 突然 出 现 严 重 拥塞 造成 RTT 大 幅 增长 。 当 出 现 重 传 超时 ，TCP 会 调整 ssthresh 并 将 cwnd 
置 为 IW， 从 而 进入 慢 启动 状态 。 假 如 没有 出 现实 际 丢 包 ， 在 RTO 之 后 到 达 的 ACK 会 使 得 
cwnd 快速 增 大 ,但 在 cwnd 和 ssthresh 值 重新 稳定 前 ,仍然 会 有 不 必要 的 重 传 ， 浪费 传输 
资源 。 

针对 上 述 问题 已 有 相关 探测 方法 。 我 们 在 第 14 章 讨论 了 其 中 的 一 些 方法 (如 DSACK、 
Eifel、F-RTO)。 其 中 任 一 探测 方法 只 要 结合 相关 响应 算法 ， 就 能 “还 原 ”TCP 对 拥塞 控 
制 变量 的 操作 。 一 种 比较 常用 ( 即 在 IETF 标准 化 过 程 中 ) 的 响应 算法 就 是 Eifel 响应 算法 
[RFC4015]. 

Eifel 算法 包含 检测 算法 和 响应 算法 两 部 分 ， 两 者 在 理论 上 是 独立 的 。 任 何 使 用 Eifel n 
应 算法 实现 的 TCP 操作 ， 必 须 使 用 相应 的 标准 操作 规范 或 实验 REC ( 即 被 记录 的 RFC) 中 
规定 的 检测 算法 。 

Eifel 响应 算法 用 于 处 理 重 传 计 时 器 以 及 重 传 计时 器 超时 后 的 拥塞 控制 操作 。 这 里 我 们 
只 讨论 与 拥塞 相关 的 响应 算法 。 在 首次 发 生 超时 重 传 时 ，Eifel 算法 开始 执行 。 若 认为 出 现 伪 
重 传 情况 ,会 撤销 对 ssthresh 值 的 修改 。 在 所 有 情况 下 ， 若 因 RTO 而 需 改变 ssthresh 值 ， 在 
修改 前 需要 记录 一 个 特殊 变量 : pipe_prev = min (在 外 数据 值 ，ssthresh)。 然 后 需要 运行 一 
个 检测 算法 ( 即 之 前 提 到 的 检测 方法 中 的 某 个 ) 来 判断 RTO 是 否 真实 。 假 如 出 现 伪 重 传 ， 则 
当 到 达 一 个 ACK 时 ， 执 行 以 下 步骤 : 

1. 若 接收 的 是 包含 ECN-Echo 标志 位 的 好 的 ACK, FIERE (参见 16.11 节 )。 

2. cwnd = 在 外 数据 值 + min (bytes_acked, IW) ( 假设 cwnd 以 字 节 为 单位 )。 

3. ssthresh = pipe_prev。 

在 改变 ssthresh 之 前 需要 设置 pipe_prev Zi. pipe prev 用 于 保存 ssthresh 的 记录 值 ， 
以 便 在 步骤 3 中 重 设 ssthresh。 步 又 1 针对 带 ECN 标志 位 的 ACK 的 情况 (在 16.11 节 中 将 详 
细 讨 论 ECN)。 这 种 情况 下 撤销 ssthresh 修改 会 引入 不 安全 因素 ， 所 以 算法 终止 。 步 又 2 和 
步骤 3 是 算法 的 主要 部 分 (针对 cwnd), R24 cwnd 设置 为 一 定 值 ， 人 允许 不 超过 IW 的 新 
数据 进入 传输 通道 。 因 为 即使 在 未 知 链 路 拥塞 与 否 的 状况 下 ， 发 送 IW 的 新 数据 也 被 认为 是 
安全 的 。 步 骤 3 在 真正 的 RTO 发 生前 重 置 ssthresh， 至 此 撤销 操作 完成 。 


16.5 ”扩展 举例 


下 面 我 们 通过 一 个 例子 来 演示 一 下 前 面 章节 提 到 的 操作 算法 。 利 用 sock 程序 ， 在 一 条 
DSL 线路 上 传输 2.5MB 数据 。 发 送 方 和 接收 方 分 别 为 Linux (2.6) 和 FreeBSD (5.4)。 链 
路 在 发 送 方 向 上 限 速 约 为 300Kb/s。FreeBSD 接收 端 处 于 高 带宽 连接 。 发 送 端 至 接收 端的 最 
小 RTT 为 15.9ms， 需 经 17 个 跳 步 。 大 部 分 处 理 操作 均 使 用 基础 算法 (如 慢 启 动 和 拥塞 避 
免 )， 以 避免 不 同 操作 系统 的 实现 细节 差异 (后面 我 们 会 提 到 相关 问题 )。 下 面 开 始 实验 ， 首 
先 在 接收 端 运行 如 下 操作 命令 : 


FreeBSD% sock -i -r 32768 -R 233016 -s 6666 


TCP HZHH 


该 命令 为 sock 程序 设置 了 一 个 较 大 的 套 接 字 接 收 缓存 (228KB )， 并 执行 大 数据 量 的 读 
操作 ( 32KB)。 对 于 传输 链 路 来 说 ， 接 收 缓存 已 足够 大 。 接 着 设置 发 送 端 为 发 送 模式 ,命令 


如 下 : 


Linux%® sock -n20 -i -w 


该 命令 选择 了 一 个 较 大 的 发 送 缓存 并 发 送 了 20 x 131072 字 节 (2.5MB) 数据 。 利 用 发 


131072 -S 262144 128.32.37.219 6666 


送 端的 trpdump 可 以 记录 数据 包 的 传输 轨迹 ， 命 令 如 下 : 


Linux# tcpdump -s 128 -w sack-to-free-12.td port 6666 


该 命令 确保 每 个 数据 包 至 少 记录 128 字 节 ， 对 获取 TCP A PARACE., Ba 
关 记 录 后 ， 可 以 采用 工具 tcptrace [TCPTRACE] 来 收集 连接 相关 的 统计 信息 ， 命 令 如 下 : 


Linux$ teptrace -Wl sack-to-free-12.td 


该 命令 需要 提供 拥塞 窗口 的 相关 信息 ， 其 输出 格式 较 长 (详细 )， 输 出 如 下 : 


1 arg remaining, starting with 'sack-to-free-12.td' 
version 6.6.7 -- Thu Nov 4, 2004 


Ostermann's tcptrace -- 


3175 packets seen, 3175 
elapsed wallclock time: 


trace file elapsed time: 


TCP connection info: 


TCP packets traced 


0:00:00.167213, 18987 pkts/sec analyzed 
0:01:40.475872 


1 TCP connection traced: 


TCP connection 1: 


host a: ads1-63-203-72-138.dsl.snfc21.pacbell.net:1059 
host b: dwight.CS.Berkeley.EDU:6666 


complete conn: ye 


S 


first packet: Wed Sep 28 22:15:29.956897 2005 
last packet: Wed Sep 28 22:17:10.432769 2005 


elapsed time: 0: 
total packets: 31 


filename: sack-to-free-12.td 
a->b: 
total packets: 1903 
ack pkts sent: 1902 
pure acks sent: 2 
sack pkts sent: 0 
dsack pkts sent: 0 
max sack blks/ack: 0 
unique bytes sent: 2621440 
actual data pkts: 1900 
actual data bytes: 2659240 
rexmt data pkts: 27 
rexmt data bytes: 37800 
zwnd probe pkts: 0 
zwnd probe bytes: 0 
outoforder pkts: 0 
pushed data pkts: 44 
SYN/FIN pkts sent: 1/1 
req 1323 ws/ts: Y/Y 
adv wind scale: 2 
req sack: Y 
sacks sent: 0 
urgent data pkts: 0 pkts 
urgent data bytes: 0 bytes 
mss requested: 1412 bytes 
max segm size: 1400 bytes 


01:40.475872 
75 


b->a: 

total packets: 

ack pkts sent: 
pure acks sent: 
sack pkts sent: 
dsack pkts sent: 
max sack blks/ack: 
unique bytes sent: 
actual data pkts: 
actual data bytes: 
rexmt data pkts: 
rexmt data bytes: 
zwnd probe pkts: 
zwnd probe bytes: 
outoforder pkts: 
pushed data pkts: 
SYN/FIN pkts sent: 
req 1323 ws/ts: 
adv wind scale: 
req sack: 

sacks sent: 

urgent data pkts: 
urgent data bytes: 
mss requested: 

max segm size: 


cooeC oC COO ON 


p 
~ 
m 


Y/Y 


79 

0 pkts 

0 bytes 
1460 bytes 

0 bytes 
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max segm size: 1400 bytes max segm size: 0 bytes 
min segm size: 640 bytes min segm size: 0 bytes 
avg segm size: 1399 bytes avg segm size: 0 bytes 
max win adv: 5808 bytes max win adv: 233016 bytes 
min win adv: 5808 bytes min win adv: 170016 bytes 
zero win adv: 0 times zero win adv: 0 times 
avg win adv: 5808 bytes avg win adv: 232268 bytes 
max owin: 137201 bytes max owin: 1 bytes 
min non-zero owin: 1 bytes min non-zero owin: 1 bytes 
avg owin: 37594 bytes avg owin: 1 bytes 
wavg owin: 33285 bytes wavg owin: 0 bytes 
initial window: 2800 bytes initial window: 0 bytes 
initial window: 2 pkts initial window: 0 pkts 
ttl stream length: 2621440 bytes ttl stream length: 0 bytes 
missed data: 0 bytes missed data: 0 bytes 
truncated data: 2556640 bytes truncated data: 0 bytes 
truncated packets: 1900 pkts truncated packets: 0 pkts 
data xmit time: 99.631 secs data xmit time: 0.000 secs 
idletime max: 7778.8 ms idletime max: 7930.4 ms 
throughput: 26090 Bps throughput: 0 Bps 


从 上 述 输 出 中 可 以 得 到 很 多 连接 方面 的 信息 。 我 们 首先 关注 输出 的 左 半 部 分 (a->b)。 可 
以 看 到 在 a->b 方向 上 共 传 输 了 1903 个 包 ， 其 中 1902 个 为 ACK。 这 和 预计 是 相符 的 ， 因 为 通 
常 第 一 个 传输 的 包 是 SYN 一 一 唯一 一 个 没有 ACK 标志 位 的 包 。 纯 ACK 包 是 指 不 包含 传输 数 
据 的 包 。 发 送 端 一 共 发 送 了 两 个 纯 ACK 包 ， 一 个 是 在 连接 初始 阶段 响应 接收 端 发 送 的 SYN + 
ACK 包 ， 另 一 个 是 在 连接 结束 时 发 送 的 。 第 二 栏 (b->a 方 向 ) 显示 ， 接 收 端 共 发 送 了 1272 个 
包 ， 全 部 是 ACEK。 其 中 ，1270 个 是 纯 ACK E, FFA 79 个 是 SACK 包 ( 即 包含 SACK 选项 的 
ACK)。 两 个 “不 纯 ” 的 ACK 分 别 是 连接 之 初 的 SYN + ACK 以 及 结束 时 的 FIN + ACK. 

从 下 面 的 5 个 值 可 以 看 出 部 分 数据 经 过 了 重 传 。 可 以 看 到 ， 单 次 传输 的 数据 为 
2 621 440 Fi (MIRA MR), 但 总 的 传输 量 达 到 了 2 659 240 字 节 ， 说 明 有 2 659 240 - 
2 621 440 = 37 800 字 节 数据 经 历 了 多 于 一 次 的 传输 。 接 下 来 的 两 个 字段 验证 了 这 一 点 ， 这 些 
数据 被 分 成 27 个 数据 包 进 行 重 传 ， 平 均 每 个 重 传 数据 段 大 小 为 1399 字 节 。 由 于 在 100.476s 
时 间 内 完成 了 2 659 240 字 节 的 传输 ， 平均 吞 吐 量 为 26 466B/s (4) 212kb/s)。 平 均 优质 吞吐 
量 (goodput， 即 单位 时 间 内 无 重 传 的 数据 量 ) 为 2 621 440/100.476 = 26 090B/s, “4 209kb/s。 
可 以 看 出 ， 传 输 性 能 受到 了 严重 干扰 。 我 们 可 以 利用 Wireshark 查看 TCP 操作 并 分 析 干 扰 产 
生 的 原因 。 

为 得 到 记录 结果 的 图 像 ， 可 以 使 用 Wireshark 的 统计 菜单 中 的 “统计 [TCP 流 图 | 时 间 序 
列 图 ”( Statistics | TCP Stream Graph | Time-Sequence Graph) 功能 (tcptrace)， 如 图 16-4 所 示 
(为 方便 讨论 已 用 箭头 标记 )。 

16-4 的 y 轴 表示 TCP 序列 号 ， 每 小 格 代表 100 000 个 序列 号 。x 轴 是 时 间 ， 以 秘 为 
单位 。 黑 体 实 线 由 许多 小 的 1 字形 线段 组 成 ， 每 段 代表 TCP 序列 号 范围 。I 形 线段 的 最 高 
点 表示 用 户 数 据 负载 大 小 ， 以 字 节 为 单位 。 线 段 的 斜率 为 数据 到 达 速 率 。 和 斜率 减 小 表示 出 
现 重 传 。 在 给 定时 间 范 围 内 的 线段 斜率 ， 代 表 了 该 时 间 段 内 的 平均 吞吐 量 。 从 图 中 可 以 看 
到 ， 在 100s 时 刻 ， 发 送 的 最 大 序列 号 为 260000， 表 示 粗 略 地 对 平均 优质 吞吐 量 的 估计 值 为 
26 000B/s， 这 与 前 面 对 tcptrace 输出 结果 的 分 析 相 一 致 。 

图 中 上 方 曲线 为 接收 端 在 对 应 时 刻 可 接收 数据 的 最 大 序列 号 (最 大 通知 窗口 )。 可 以 看 
到 ， 在 起 始 时 刻 ， 其 值 约 为 230000，tcptrace 输出 中 的 b->a 栏 中 的 精确 数据 显示 为 233016。 
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下 方 曲线 代表 发 送 端 在 对 应 时 刻 接 收 到 的 最 大 ACK 号 。 之 前 已 经 提 到 过 ， 当 TCP 进行 操作 
时 ， 会 增 大 拥塞 窗口 ， 以 获取 新 的 带宽 。 这 和 接收 端的 通告 窗口 并 不 冲突 。 这 一 点 可 以 从 
图 中 看 出 ， 随 着 时 间 推 移 ， 实 线 部 分 逐渐 从 下 方 曲线 向 上 方 曲线 靠近 。 若 始终 达 不 到 上 方 曲 
线 ， 影 响 网 络 吞 吐 量 的 主要 因素 可 能 为 发 送 端 或 者 网 络 传输 资源 的 限制 。 若 黑 线 部 分 始终 紧 
贴 下 方 曲线 ， 则 影响 因素 主要 在 于 接收 窗口 限制 。 








图 16-4 Linux 2.6.10 TCP 发 送 端 传输 2.5MB 文件 的 Wireshark C, DSL 线路 速率 约 为 300Kb/s。 黑 
体 实 线 代 表 发 送 序 列 号 。 上 方 曲线 为 接收 端 通知 窗口 的 最 高 序列 号 (窗口 右边 界 )， 下 方 曲线 
表示 发 送 方 接收 到 的 最 大 ACK 号 。 图 中 标记 的 11 个 事件 为 拥塞 窗口 的 变化 情况 


16.5.1 慢 启动 行为 


在 分 析 之 前 ， 首 先 观察 我 们 之 前 介绍 过 的 慢 启动 算法 的 相关 操作 。 在 Wireshark 中 选择 
记录 结果 的 第 一 个 包 ， 利 用 菜单 中 的 “统计 | 流 图 ”( Statistics | Flow Graph) 功能 ， 描 绘 出 在 
连接 初始 阶段 包 交 换 的 过 程 (参见 图 16-5 )。 

从 图 中 可 以 看 到 初始 阶段 的 SYN 和 SYN + ACK 的 交换 过 程 。0.032s 时 刻 的 ACK 是 一 
次 窗口 更 新 (参见 第 15 章 )。 前 两 次 数据 包 传 输出 现在 0.126s 和 0.127s 时 刻 。 在 0.210s 时 
刻 返 回 的 ACK 不 是 仅 对 一 个 数据 包 的 确认 。 它 的 序列 号 为 2801， 由 于 TCP ACK 的 累积 确 
认 性 质 ， 它 是 对 前 两 个 发 送 的 数据 包 的 响应 。 这 是 延 时 ACK 的 一 个 例子 ， 延 时 ACK 通常 是 
每 两 个 数据 包 生 成 一 个 ACK (或 如 [RFC5681] 中 建议 的 更 频繁 )。 对 接收 端 ( FreeBSD 5.4 ) 
来 说 更 为 特殊 ， 它 需要 在 每 个 ACK 确认 一 个 包 和 两 个 包 之 间 切 换 。 这 表明 平均 来 说 ， 每 三 
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个 数据 包 会 返回 两 个 ACK (假设 没有 出 现 传输 错误 和 重 传 )。 在 第 15 章 中 我 们 已 经 讨论 过 延 
时 ACK 和 窗口 更 新 间 题 了 。 

一 个 ACK 完成 对 两 个 数据 包 的 
确认 ， 使 得 滑动 窗口 可 以 向 前 滑动 
两 个 包 ， 因 此 可 以 继续 发 送 两 个 新 的 
数据 包 。 由 于 连接 处 于 初始 慢 启动 
阶段 ， 发 送 端 每 接收 一 个 好 的 ACK, 
拥塞 窗口 相应 加 1 (Linux TCP 管理 
的 拥塞 窗口 以 包 为 单位 )。 在 上 述 情 
况 下 ，cwnd 从 2 增 至 3。 因此 可 以 继 
续 传 输 三 个 数据 包 ， 分 别 在 0.215s、 
0.216s 和 0.217s 时 刻 发 送 。 

0.264s 到 达 的 ACK 是 对 单个 
包 的 确认 ， 表 明 接 收 方 期 望 下 次 接 
收 序列 号 为 4201 的 数据 包 。 然 而 ， PFT ES = ses 
4201 号 以 及 之 后 的 5601 号 数据 包 已 ”图 16-5 Wireshark 分 析 显示 了 从 连接 建立 起 传输 的 数据 包 
被 发 送 ， 但 仍 未 到 达 。 因 此 ，0.264s 和 ACK 号 。 发 送 端 每 接收 一 个 ACK 就 会 发 送 两 
时 刻 的 ACK 使 得 cwnd 由 3 变 为 4， 三 个 新 数据 包 ， 这 是 慢 启动 的 典型 行为 
但 由 于 两 个 包 仍 处 于 传送 状态 ， 只 
能 允许 继续 发 送 两 个 数据 包 (该 ACK 使 得 滑动 窗口 前 行 ， 另 外 ， 接 收 到 这 个 好 的 ACK 允许 
cwnd 加 1 )。 这 两 个 包 的 发 送 时 间 为 0.268s 和 0.268s (在 同一 个 1/1000 秒 内 )。 

以 上 是 发 送 端 执 行 慢 启动 情况 下 接收 端 延 时 返回 ACK 的 典型 例子 。 这 个 过 程 持续 
(每 接收 一 个 ACK 发 送 两 三 个 新 数据 包 ) 直到 5.6s。 下 面 我 们 进一步 讨论 此 时 发 生 的 情况 。 


16.5.2 发送 暂停 和 本 地 拥塞 (事件 1) 


如 图 16-4 所 示 ， 在 5.512s 时 刻 发 送 一 个 数据 段 后 ， 直 到 6.162s 时 刻 才 开 始 再 次 发 送 ， 
这 中 间 出 现 了 一 个 暂停 。 利 用 Wireshark 的 图 像 放 大 功能 可 以 得 到 图 16-6。 

可 以 看 到 ， 在 发 送 暂停 阶段 没有 新 数据 的 传输 ， 也 没有 重 传 ， 但 暂停 结束 后 却 出 现 了 传 
输 速率 的 下 降 ， 这 是 为 什么 呢 ? 我 们 再 次 通过 传输 流 记录 功能 一 探究 竟 (参见 图 16-7 )。 

暂停 前 最 后 一 次 传输 的 数据 段 开 启 了 PSH 标 志 ， 表 明 发 送 缓存 已 经 清空 ， 所 以 在 
5.559s 时 刻 TCP 发 送 端 已 经 终止 发 送 。 导 致 发 送 终 止 的 原因 可 能 有 多 种 ， 如 发 送 方 系统 忙于 
处 理 其 他 任务 ， 无 暇 顾及 数据 传输 。 

我 们 可 以 看 到 这 次 暂停 并 不 意味 着 重 传 恢 复 阶 段 的 开始 ， 但 暂停 结束 后 线段 的 斜率 有 所 
下 降 ， 表 明 发 送 速率 在 减 小 。 下 面 将 仔细 观察 并 探讨 这 种 行为 产生 的 原因 。 

暂停 前 最 后 发 送 数据 的 序列 号 为 343001 + 1400 - 1 = 344400， 该 序列 号 之 前 没有 发 送 
过 ， 所 以 不 是 重 传 数据 。 在 5.486s 时 刻 (已 标记 出 ) 发 送 完 数据 段 后 ， 网 络 中 已 发 出 但 未 收 
到 ACK 的 数据 量 达 到 最 大 值 : 341 601 + 1400 - 205 801 = 137 200 字 节 (98 个 包 )， 即 cwnd 
值 为 98 个 包 。5.556s 时 刻 到 达 的 ACK 表明 又 有 两 个 包 被 成 功 接收 。 和 暂停 前 最 后 又 发 送 了 一 
个 数据 包 ， 序 列 号 为 344400， 这 样 一 共有 97 个 包 还 未 成 功 接收 。 

















| = 
a 
p= taur 


TCP HZHH 533 


ICP Graph 1; sack-to-free-12.td 63.203, 72,138:1059 169.229. 62.97:6666 


Time/Sequence Graph (teptrace) 





图 16-6 在 慢 启动 阶段 后 ， 连 接 暂 停 持续 了 约 5S12ms， 接 着 在 5.5128 时 刻 恢复 发 送 


e-17.1d - Graph Analysis 
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seq = 1 Ack = 214201 
Ffi seq = 1 Ack = 217001 


Seq = 351401 Ack = 1 
Seq = 352901 Ack = 1 
Seq = 354201 Ack = 1 

| Seq = 1 Ack = 235201 

|| seq = 355601 Ack = 1 

| seg = 1 Ack = 238001 

| Seq = 357001 Ack = 1 








图 16-7 在 5.559s 时 刻 发 送 方 暂停 发 送 。6.209s 时 刻 重 新 开始 发 送 ， 由 于 本 地 拥塞 ， 可 发 送 包 个 数 被 
限制 为 8 个 。 有 些 TOP 版 本 就 是 利用 限制 发 送 速率 的 方法 来 避免 发 送 端 队列 拥塞 
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在 发 送 暂 停 阶 段 ， 共 有 11 个 ACK 到 达 (之 前 提 过 ， 每 个 ACK 确认 一 个 或 两 个 数据 
段 )。 最 后 一 个 ACK 表明 序列 号 为 233800 的 数据 段 已 成 功 传输 ， 同 时 仍 有 110 600 字 节 
(79 个 包 ) 的 数据 没有 收 到 确认 。 此 时 ， 发 送 方 开 始 继续 发 送 ， 它 可 以 发 送 的 数据 包 个 数 为 
98 - 79 = 19 个 ,但 从 图 中 看 到 ， 它 只 发 送 了 8 个。 至 6.128s， 它 发 送 的 数据 段 的 最 终 序 列 
号 为 354201 + 1400 - 1 = 355600. 

从 传输 流 记录 图 中 并 不 能 很 清楚 地 看 到 TCP 当时 的 状况 。 我 们 预料 应 该 会 发 送 19 个 
包 , 但 结果 只 发 送 了 8 个。 原因 可 能 在 于 ， 下 层 产生 的 大 量 数据 包 堵塞 了 本 地 (下层) 队列 ， 
使 得 后 续 包 无 法 传送 。 为 明确 是 否 由 下 层 原因 导致 上 述 问题 ， 由 于 数据 包 经 过 ppp0 网 络 接 
口传 输 ， 所 以 在 Linux 中 使 用 如 下 命令 : 


Linux% tc -s -d qdisc show dev ppp0 
qdisc pfifo fast 0: bands 3 priomap 1222120011111111 
Sent 122569547 bytes 348574 pkts (dropped 2, overlimits 0 requeues 0) 


上 述 命令 中 的 tc 是 Linux 中 用 于 管理 包 调度 和 流量 控制 子 系 统 的 指令 [LARTC]。 -s 和 -d 
选项 提供 具体 的 记录 细节 。 指 令 qdisc show dev ppp0 为 显示 设备 ppp0 的 排队 规则 ， 即 管理 
和 调度 包 发 送 的 方法 。 注 意 到 这 里 出 现 了 两 个 丢 包 ， 这 不 是 在 网 络 传输 过 程 中 的 丢 包 ， 而 是 
出 现在 发 送 端 TCP 下 层 的 丢 包 。 由 于 丢 包 发 生 于 TCP 层 以 下 , 但 又 是 在 包 的 操作 处 理 层 以 
上 ， 所 以 传输 流 记 录 中 并 不 记录 这 些 包 ， 这 也 是 我 们 只 看 到 8 个 包 传 输 的 原因 。 在 发 送 端 系 
统 产生 的 丢 包 有 时 称 为 本 地 拥塞 ， 产 生 原因 在 于 ，TCP 产生 数据 包 的 速度 大 于 下 层 队 列 的 发 
送 速度 。 


注意 Linux 流量 控制 子 系统 以 及 一 些 路 由 器 和 操作 系统 支持 的 优先 级 策略 或 QoS 
特性 (如 Microsoft 的 qWave API [WQOS])， 可 能 使 用 不 同 的 排队 规则 ， 按 照 数 据 
包 的 特性 (de IP DSCP 值 或 TCP 端口 号 ) 会 有 不 同 的 调度 方法 。 对 某 些 数据 包 (如 
多 媒体 数据 包 ，TCP 纯 ACK 包 等 ) 采用 优先 级 策略 ， 可 以 提升 交互 式 应 用 的 用 户 
体验 。 一 般 来 说 ， 互 联网 并 不 支持 优先 级 策略 ， 但 许多 局 域 网 和 有 些 企 业 卫 网 络 
中 会 采用 这 种 策略 。 


本 地 拥塞 是 Linux TCP 实行 拥塞 窗口 缩减 (Congestion Window Reducing, CWR) 策 
略 [SK02] 的 原因 之 一 。 首 先 ， 将 ssthresh 值 设置 为 cwnd/2， 并 将 cwnd 设 为 min (cwnd， 在 
外 数据 值 + 1)。 在 CWR 阶段 ， 发 送 方 每 接收 两 个 ACK 就 将 cwnd 减 1， 直到 cwnd 达到 新 
的 ssthresh 值 或 者 由 于 其 他 原因 结束 CWR (如 出 现 丢 包 )。 这 本 质 上 和 前 面 提 到 的 速率 减 半 
(rate-halving) 算法 一 致 。 若 TCP 发 送 端 接 收 到 TCP 头 部 中 的 ECN-Echo 也 会 进入 CWR 状 
AS (参见 16.1.1 节 )。 

了 解 了 这 些 之 后 ,我 们 就 可 以 理解 前 面 情况 的 产生 原因 了 。 当 TCP 结束 暂停 后 ， 它 只 
能 继续 发 送 8 个 包 。 由 于 本 地 拥塞 ， 无 法 传输 额外 的 包 ，TCP 进入 CWR 状态 。ssthresh 立 
即 减 为 98/2 = 49 个 包 ，cwnd 也 变 为 79 + 8 = 87 个 包 。 每 接收 两 个 ACK，cwnd 就 会 减 1， 
这 样 就 导致 发 送 速率 减 慢 ， 直 到 8.364s 时 刻 cwnd 值 变 为 66 个 包 。 

发 送 速率 的 减 小 也 可 以 从 图 16-6 中 观察 出 来 ， 在 5.5s 时 刻 前 ， 线 段 的 斜率 显示 数据 传 
输 速 率 约 为 S00Kb/s。 这 个 值 大 于 传输 方向 上 的 最 大 速率 ， 必 然 会 使 得 链 路 中 的 一 个 或 多 
个 队列 出 现 拥堵 ， 导 致 RTT 增 大 。 我 们 可 通过 “统计 [TCP 流 图 RTT 图 ”( Statistics | TCP 
Stream Graph | Round Trip Time Graph) 进行 观察 (参见 图 16-8 ) 。 
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TCP Graph 2: sack-to-free-12.td 63,203. 72.138:1059 -> 169.229.62.97:6666 


Round Trip Time Graph 
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图 16-8 发 送 端 对 RTT 的 估计 值 曲线 。RTT 增长 阶段 (图 中 稠密 的 增长 值 群 组 ) 对 应 于 由 过 大 的 发 
送 速 率 导致 路 由 器 缓存 溢出 的 情况 ，RTT 降低 阶段 则 表示 发 送 端 减 慢 发 送 速率 ， 等 待 队 列 
逐渐 减 小 


如 图 16-8 Bras, 》 轴 代表 RTT 估计 值 ， 以 秒 为 单位 。x 轴 表 示 序 列 号 。 可 以 看 到 ， 在 序 
列 号 约 为 340000 处 ，RTT 开始 减 小 。 这 和 之 前 提 到 的 发 送 暂停 前 最 后 发 送 的 序列 号 相 一 致 
( 344400 )。RTT 的 减 小 意味 着 发 送 方 减 慢 发 送 速率 ， 使 得 网 络 传输 负载 减轻 ( 即 数据 发 出 速 
率 大 于 新 数据 到 达 速 率 )。 这 样 路 由 器 队列 逐渐 为 空 ， 等 待 时 间 减 小 ，RTT 也 相应 减 小 。 

TCP 处 于 CWR 状态 ， 发 送 速 率 会 持续 减 小 。 最 终 ，RTT 会 减 至 绝对 最 小 值 约 17ms。 
通常 ，TCP 会 避免 这 种 情况 的 发 生 ， 因 为 它 需 要 保持 传输 通道 处 于 “ 满 ” 的 状态 ， 以 此 确保 
充分 利用 可 用 的 网 络 资源 。 


16.5.3 ”延伸 ACK 和 本 地 拥塞 恢复 


在 8.364s 时 刻 ， 随 着 进入 CWR 状态 cwnd 逐渐 减 小 ， 使 得 TCP 传输 速率 更 快 地 减 小 。 
从 8.362s 时 刻 的 ACK 可 以 得 到 在 外 数据 值 ，cwnd 与 这 部 分 在 外 数据 量 的 关系 导致 了 发 送 速 
率 的 快速 降低 (图 16-9 中 标记 部 分 )。 

8.362s 时 刻 的 ACK 号 为 317801， 而 前 一 个 ACK 是 313601， 所 以 这 个 ACK 确认 的 数 
据 为 317 801 - 313 601 = 4200 F (3 个 包 )。 这 通常 称 为 延伸 ACK (stretch ACK)， 即 一 个 
ACK 确认 两 个 最 大 段 以 上 长 度 的 数据 。 其 形成 原因 有 多 种 ， 最 简单 的 就 是 ACK EA. HH 
很 难 判断 延伸 ACK 产生 的 确切 原因 ， 但 这 并 不 重要 。 在 这 个 例子 里 ， 我 们 假设 先前 的 ACK 
丢失 。 这 个 延伸 ACK 使 得 cwnd 从 68 减 为 66。 
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16-9 ”一 个 “延伸 ACK ”确认 了 三 个 数据 包 长 度 的 数据 。 这 种 ACK 可 能 使 得 发 送 端 突 发 操作 ， 当 其 
他 ACK 在 传输 中 丢失 时 ， 可 能 会 出 现 延 伸 ACK 


Linux 的 TCP 实现 在 每 次 接收 ACK 时 ， 总 是 试图 调整 已 发 送 但 未 经 确认 数据 ( 记 为 在 
外 数据 ，outstanding data) 的 估计 值 。( 当 它 发 送 数据 段 后 ， 也 会 根据 之 前 提 到 的 拥塞 窗口 校 
验算 法 去 修改 拥塞 窗口 ， 但 这 里 并 不 生效 。) 在 CWR 阶段 ， 如 果 在 外 数据 包 由 于 某 种 原因 减 
少 ， 如 这 里 的 接收 延伸 ACK 后 ，cwnd 调整 为 在 外 数据 估计 值 加 1。 需 要 注意 的 是 ，CWR 通 
常 只 会 在 接收 到 每 一 对 ACK 后 将 cwnd 的 值 减 1， 因 此 这 是 额外 的 操作 。 通 常情 况 下 每 接收 
一 个 ACK，cwnd 会 减 小 1 或 0， 然 后 cwnd 被 设置 为 min ( 在 外 数据 值 + 1, [ 也 可 能 减少 的 ] 
cwnd)。CWR 阶段 一 直 持 续 到 cwnd 达到 ssthresh 或 其 他 事件 的 发 生 ， 如 丢 包 或 重 传 。 

在 收 到 延伸 ACK 前 的 8.258s 时 刻 ， 在 外 数据 估计 值 为 407 401 + 1400 - 313 601 = 
95 200 字 节 (68 个 包 )。 接 收 延伸 ACK 后 ,在 外 数据 包 为 65 个 ，cwnd 调整 为 66。 

在 CWR 阶段 ， 在 外 数据 估计 值 和 cwnd 紧密 相关 。 在 这 里 出 现 了 ACK 延 时 的 情况 ， 导 
致 每 两 个 ACK 到 达 cwnd 值 减 2， 但 只 能 发 送 一 个 新 数据 包 。 原 因 如 下 : 假设 在 ACK 到 达 前 ， 
cwnd 值 为 cc， 在 外 数据 估计 值 为 有 = co。 当 第 一 个 ACK 到 达 (对 一 个 包 的 确认 ), A =f -1, 
cwnd 更 新 为 cd1 = min (co - 1,j1+1)=co-1。 当 第 二 个 ACK 到 达 (由 于 延 时 ACK， 因 此 为 对 
两 个 包 的 确认 ), h=fi-2=c-3, cwnd IX c= min (c, f+ 1)= min (co-— 1, co- 2) = co - 20 
至 此 拥塞 窗口 减 2, 但 已 有 3 个 包 被 确认 ， 因 此 在 接收 第 二 个 ACK 后 ， 只 可 继续 发 送 一 个 包 。 

在 9.37s 时 刻 ，cwnd 达到 ssthresh 为 49， 发 送 端 结束 CWR 阶段 。TCP 返回 正常 操作 模 
式 ， 继 续 执 行 拥塞 避免 (参见 图 16-10 和 图 16-11). 

在 图 16-10 中 ， 用 圆圈 标记 出 的 数据 包 表 明 发 送 端 结束 CWR， 继 续 执 行 拥 塞 避 免 算法 。 
图 16-11 更 为 详细 地 显示 了 这 一 行为 。 

发 送 端 继续 执行 拥塞 避免 ， 逐 渐 达 到 相对 稳定 的 吞吐 量 。 然 而 ， 在 17.232s 时 刻 ， 开 始 
形成 严重 的 拥塞 ， 致 使 RTT 大 幅 增长 。 在 图 16-8 中 可 以 看 到 ， 在 序列 号 720000 处 ，RTT 约 
增 至 6.5s 一 一 是 稳定 阶段 (2s) 的 三 倍 多 。 这 是 大 规模 拥塞 的 常见 现象 。 最 终 ， 严 重 的 网 络 
拥塞 导致 了 丢 包 ，TCP 发 送 端 开 始 了 首次 重 传 。 
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图 16-10 至 9.369s 时 刻 ， 发 送 端 恢复 正常 模式 ， 继 续 执行 


每 接收 一 个 ACK 发 送 一 个 或 两 个 新 数据 包 操作 


sack-to-free-12.td - Graph Analysis 


图 16-11 








Seq= 1 Ack = 351401 
Seq = 420001 Ack = 1 
Seq = 1 Ack = 352801 
Seq = 1 Ack = 355601 
Seq = 421401 Ack = 1 
Seq = 422801 Ack = 1 
Seq = 1 Ack = 357001 
Seq = 424201 Ack = 1 
Seq = 425601 Ack = 1 
Seq = 1 Ack = 359801 
Seq = 427001 Ack = 1 
Seq = 428401 Ack = 1 
Seq = 1 Ack = 361201 
Seq = 423001 Ack = 1 
Seq = 1 Ack = 364001 


|| Seq = 1 Ack = 365401 


TCP 完成 了 恢复 阶段 并 返回 正常 (拥塞 避免 ) 状态 。 
每 接收 一 个 ACK 就 发 送 一 个 或 两 个 新 的 数据 包 
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16.5.4 ”快速 重 传 和 SACK 恢复 (事件 2 ) 


由 于 RTT 大 幅 增 长 ， 在 21.209s 时 刻 出 现 了 首次 重 传 。 从 图 16-12 可 以 清楚 地 看 到 ， 首 
次 重 传 (图 中 圈 出 部 分 ) 数据 包 的 起 始 序 列 号 为 690201， 对 应 接收 到 的 最 高 ACK 号 (也 是 
690201 ) 。 这 次 重 传 是 由 于 接收 到 带 有 SACK 块 为 [698601，700001] 的 重复 ACK, XEK 
数值 区 间 是 接收 端 成 功 接收 的 序列 号 区 间 ， 表 明 这 是 对 单个 数据 包 的 确认 。 
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图 16-12 首次 重 传 (已 圈 出 ) 发 生 在 21.209s 时 刻 。SACK 块 用 于 告知 发 送 方 发 送 哪 些 数据 包 。 在 
21.0 ~ 22.0s 时 间 内 ， 共 出 现 了 8 次 重 传 


至 21.209s 时 刻 首次 重 传 发 生 为 止 ， 已 发 送 数 据 的 最 大 序列 号 为 761601 + 1400 - 1 = 
763000, cwnd 值 为 52。 重 传 发 生 后 ，ssthresh 值 从 49 减 为 26，TCP 进入 恢复 阶段 ， 一 直 持 续 
至 接收 到 序列 号 为 763000 (或 更 高 ) 的 累积 ACK 为 止 。 另 外 ,cwnd 也 减 为 (在 外 数据 值 + 1 )。 
由 于 有 些 数据 很 可 能 已 丢失 ， 因 此 并 不 能 直接 确定 在 外 数据 值 ， 需 要 利用 下 式 : 

flight size (在 外 数据 值 )= packets_ outstanding + packets_retransmitted - packets_removed 

等 式 右边 的 第 一 项 表示 经 首次 发 送 ( 非 重 传 ) 但 仍 未 收 到 ACK 的 数据 ; 第 二 项 为 重 传 
但 仍 未 经 ACK 确认 的 数据 ; 最 后 一 项 则 表示 那些 网 络 中 已 经 不 存在 ， 但 还 没有 收 到 ACK 的 
数据 。 由 于 TCP 无 法 确认 获知 最 后 一 项 packets removed 值 ， 因 此 必须 通过 估算 的 方法 。 它 
包括 已 被 接收 (RA) 的 数据 加 上 在 传输 中 丢失 的 部 分 。 利 用 SACK 可 以 知道 前 半 部 分 的 值 ， 
但 丢 包 个 数 仍 需 要 估算 。 

packets_outstanding 的 计算 值 为 (763 001 - 690 201) / 1400 = 72 800/1400 = 52。 根 据 
SACK 块 的 序列 号 区 间 ， 可 以 推算 出 已 被 接收 缓存 的 包 个 数 为 (700 001 - 698 601) /1400 = 
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1400/1400 = 1。 利 用 FACK (这 里 默认 启用 )， 经 SACK 推算 出 的 缓存 之 间 的 空缺 被 认为 是 丢 
包 。 这 里 估算 共有 698 601 - 690 201 = 8400 (6 个 包 ) 丢失 。 因 此 ，flight size 的 值 为 52+1- 
(1+ 6) = 46， 相 应 地 ，cwnd 值 设 为 47。 与 CWR 相似 ， 在 恢复 阶段 ， 每 接收 两 个 包 的 ACK， 
cwnd W 1。 首 次 重 传 后 ， 又 发 生 了 7 次 重 传 。 接 着 在 21.2 ~ 21.7s 时 间 内 ， 又 开始 了 新 数据 
的 发 送 ， 相 应 的 每 个 ACK 都 包含 了 SACK 信息 (参见 图 16-13 )。 

图 16-13 去 掉 了 Wireshark 中 其 他 不 相关 信息 ， 可 以 清楚 地 看 到 每 个 ACK 包含 的 SACK 
faih. WX SACK 的 序列 号 区 间 (SLE 和 SRE)， 有 两 个 常见 值 : [698601，700001] 和 
[702801，763001]。 前 者 表示 只 缓存 了 一 个 数据 包 (序列 号 范围 为 698601 ~ 700001 )， 后 者 
则 增加 至 43 个 包 (序列 号 范围 为 702801 ~ 763001 )。 通 常 CWR 阶段 的 速率 减 半 算法 每 接 
收 两 个 包 ，cwnd 至 少 减 1。 这 里 每 个 ACK 是 对 一 个 包 的 确认 ，flight size 相应 减 1， 因 此 可 
以 发 送 一 个 新 的 数据 包 。 注 意 这 里 和 CWR 状态 的 区 别 ，CWR 情况 下 ， 每 个 ACK 提供 对 两 
个 包 的 确认 ， 而 这 里 一 个 ACK 只 确认 一 个 包 ， 因 此 不 论 是 否 为 重 传 包 ， 每 接收 一 个 ACK， 
cwnd 减 1。 在 整个 恢复 期 间 ，cwnd 从 47 减 为 20。 

Wireshark 显示 ， 大 多 数 包含 SACK 的 ACK 是 序列 号 为 690201 的 重复 ACK( 其 中 44 个 )。 
有 5 个 好 ACK HEE SACK 块 [702801，763001] 和 [698601，700001] 的 非 重 复 ACK。 还 有 
两 个 ACK 只 包含 了 [702801，763001]SACK 块 。 这 些 ACK 并 不 能 使 发 送 端 结束 恢复 状态 ， 
ALA ACK 号 低 于 之 前 提 到 的 763000 (恢复 点 )。 它 们 属于 我 们 在 前 面 讨论 过 的 局 部 ACK. 

23.301s 时 刻 接收 了 序列 号 为 765801 (大 于 前 面 提 到 的 763000 ) 的 好 ACK， 表 明 已 经 
达到 恢复 点 ， 此 时 的 cwnd 为 20，ssthresh 值 为 26， 说明 TCP 正 处 于 惕 启动 状态 。 又 经 历 
几 轮 传输 后 ， 到 23.659s 时 刻 ，cwnd 达到 27，TCP 恢复 正常 操作 ， 继 续 执行 拥塞 避免 算法 。 
至 此 首 个 快速 重 传 恢复 阶段 完 


16.5.5 ”其 他 本 地 拥塞 和 快速 重 传 事 件 


下 面 再 次 发 生 了 本 地 拥塞 、 快 速 重 传 和 其 他 两 个 本 地 拥塞 相关 事件 。 它 们 和 之 前 的 相关 
内 容 有 相似 的 地 方 ， 这 里 只 是 进行 简要 概括 。 


16.5.5.1 再 次 CWR (事件 3) 

在 30.745s 时 刻 ， 由 于 本 地 拥塞 再 次 出 现 了 CWR 事件 。 此 时 在 外 数据 值 为 1 090 601 + 
1400 - 1 051 401 = 40 600( 29 个 包 ),cwnd 为 31。 按 理 可 再 发 送 两 个 包 ， 但 由 于 出 现 本 地 拥塞 ， 
导致 实际 并 未 发 送 。 在 这 种 情况 下 ，cwnd 被 设置 为 在 外 数据 值 + 1 = 30，ssthresh 减 为 15。 
在 34.759s 时 刻 ， 在 RTT 再 次 出 现 大 幅 增 长 后 ，cwnd KEX ssthresh 时 ，TCP 退出 CWR 状态 。 


16.5.5.2 ”二 次 快速 重 传 (事件 4 ) 

在 36.914s 时 刻 ，cwnd = 16， 再 次 出 现 快 速 重 传 。 利 用 Wireshark 的 基本 显示 功能 ， 可 
以 清楚 地 看 到 重 传 (参见 图 16-14). 

在 36.878s Ht Zl, Fe WK T — <^ HF SACK $8 [1117201, 1118601] MJ ACK (1366 号 包 ， 
ACK 号 为 1110201 )。 这 使 得 Linux TCP 进入 了 失 序 状态 ， 到 达 一 个 ACK 就 能 触发 一 个 新 
数据 包 的 传输 (和 限制 传输 相似 )，1367 号 包 就 是 经 该 ACK 触发 发 送 的 。 

36.912s 时 刻 接收 了 包含 SACK 块 [1117201，1120001] 的 重复 ACK (1368 号 包 )， 因 此 
TCP 进入 恢复 阶段 ， 并 在 36.914s 时 刻 触 发 快速 重 传 (1369 号 包 )。 至 此 已 发 送 数据 的 最 大 序列 
号 为 1132601 + 1400 - 1 = 113400。 随 着 37.455s 时 刻 序列 号 为 1134001 的 ACK ( 1391 号 包 ) 到 
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Source port: 6666 (6666) 
Destination port: 1059 (1059) 
[stream index: 0] 
Sequence number: 1 (relative sequence number) 
Acknowledgement number: 1110201 (relative ack number) 
Header length: 44 bytes 
@ Flags: 0x10 (ACK) 
Window size: 233016 (scaled) 
w Checksum: 0x3344 [correct] 
i Options: (24 bytes) 
NOP 
NOP 
Timestamps: TSval 147588476, TSecr 17124188 
nor 
NOP 
@ SACK; 1117201-1118601 


2 i. 
@ [Timestamps] 





图 16-14 一 旦 接收 到 一 个 重复 ACK 或 一 个 带 SACK 信息 的 ACK，Linux TCP 发 送 端 会 进入 失 序 
(Disorder) 状态 。 在 此 状态 下 ， 数 据 包 的 到 达 会 触发 新 数据 的 传输 。 之 后 再 次 接收 重复 (或 
带 SACK 信息 的 ) ACK， 就 会 进入 恢复 (Recovery) 状态 ， 并 开始 重 传 


达 ， 恢复 阶段 结束 。 注 意 到 紧 随 这 个 ACK 的 是 一 次 窗口 更 新 。 对 于 批量 数据 传输 来 说 ， 接 
收 窗口 相对 于 网 络 带宽 延迟 积 较 大 ， 因 此 这 样 的 窗口 更 新 通常 不 是 很 重要 。 但 在 交互 式 传 
输 、 接 收 窗口 较 小 或 者 很 少 从 网 络 中 读数 据 的 传输 中 ， 这 些 更 新 就 相当 重要 (第 15 章 已 经 
提 到 )。 当 36.914s 时 刻 的 第 一 次 快速 重 传 开 始 ，ssthresh 从 16 减 为 8。 到 37.455s 时 刻 恢复 
阶段 完成 ，cwnd = 4，ssthresh = 8。 由 于 cwnd 小 于 ssthresh， 发 送 端 进入 慢 启动 状态 。 


16.5.5.3 ”再 次 CWR (事件 5 和 事件 6 ) 
随 着 43.356s 时 刻 序列 号 为 1359401 的 ACK 的 到 达 ， 由 于 本 地 拥塞 致使 后 续 数 据 包 无 
法 发 送 ，TCP 再 次 进入 CWR 状态 。 这 使 得 ssthresh 减 为 8，cwnd ZH 15. Æ CWR 状态 的 
再 次 传输 失败 ， 致 使 ssthresh 变 为 12。 最 终结 束 CWR 时 ，cwnd = 7，ssthresh = 8。 
另 一 次 的 本 地 拥塞 发 生 在 59.652s 时 刻 ， 此 时 的 cwnd = 19, ssthresh = 10， 导 致 TCP 再 
次 进入 CWR 状态 。 这 次 出 现 了 超时 ， 致 使 TCP 由 CWR 状态 进入 丢失 (Loss) 状态 。 这 是 
我 们 需要 讨论 的 新 的 事件 类 型 。 
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16.5.6 超时、 重 传 和 撤销 cwnd 修改 


TCP 设置 了 超时 计时 器 ， 用 于 快速 重 传 中 出 现 丢 包 的 情况 。 至 此 我 们 还 没有 看 到 重 传 
超时 的 发 生 ， 这 从 一 定 角度 说 是 好 事 ， 因 为 一 旦 超时 发 生 ， 就 意味 着 网 络 中 出 现 了 严重 的 拥 
塞 ， 性 能 极 差 。 在 下 面 的 传输 过 程 中 ， 如 图 16-15 所 示 ， 我 们 将 看 到 重 传 计时 器 超时 后 TCP 
的 处 理 操作 。 


rt: 1059 (1059), Dst Port: 6666 (8666), Seq: 1773801, Ack: 1, Len: 1400 


ra (rol Proto 
Source port: 1059 (1059) 
Destination port: 6666 (6666) 


[stream index: 0] 
Sequence number: 1773801 (relative sequence number) 
(Next sequence number: 1775201 (relative sequence number )] 
Acknowledgement number: 1 (relative ack number) 
Header length: 32 bytes 
@ Flags: 0x10 (ACK) 
Window size: 5808 (scaled) 
æ Checksum: 0x717b [unchecked, not all data available] 
@ Options: Q2 CAPA 
m |[SEQ/ACK analysis] 
ia AN 





图 16-15 “发送 端 经 历 了 首次 超时 ， 其 RTO = 1.57s。 在 这 里 ， 发 送 端 认 为 这 是 一 次 伪 超 时 ， 并 撤销 了 
对 拥塞 控制 变量 的 变更 


16.5.6.1 首次 超时 (事件 7) 
62.486s 时 刻 出 现 了 一 次 重 传 (2157 号 包 )， 序 列 号 为 1773801 (图 16-15 中 标记 部 分 )。 


在 此 之 前 ， 并 没有 重复 ACK 或 SACK 信息 。 


如 图 16-15 所 示 ， 在 62.486s 时 刻 ， 至 上 个 ACK 到 达 已 过 了 1.58s， 但 根据 图 16-8， 此 
时 的 RTT 估计 值 只 有 800ms。 因 此 ， 我们 认为 发 生 了 重 传 超时 。TCP HEALER (Loss) KAS, 
cwnd 减 小 为 1，ssthresh 设 为 5， 进 入 慢 启 动 状态 。 超 时 也 使 得 之 前 保存 的 SACK 信息 被 丢 
弃 。 然 而 接收 端 仍 会 返回 SACK 信息 ， 因 此 对 新 接收 的 SACK 可 以 继续 使 用 。 


注意 当 经 历 超时 后 ，TCP 应 当 “ 忘 记 ” 之 前 的 SACK 信息 ， 原 因 在 于 接收 端 可 
能 会 改变 它 之 前 发 出 的 SACK 信息 。 根 据 [RFC2018]， 当 接收 端 需要 调整 其 缓存 
时 ， 可 能 将 之 前 存储 的 失 序 数据 删除 。 尽 管 并 不 常见 ， 但 这 种 行为 是 允许 的 。 当 
接收 端 需要 整理 缓存 时 ， 只 有 第 一 个 SACK 信息 中 最 近 接 收 到 的 数据 块 不 会 删除 。 
其 他 的 SACK 信息 都 不 再 可 信 。 


然而 有 趣 的 是 ， 这 里 的 拥塞 操作 都 撤销 了 。 之 前 已 经 提 过 ， 当 TCP 认为 重 传 超时 出 错 ， 
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会 执行 Eifel 响应 算法 。 在 此 处 可 以 凭借 时 间 戳 的 证 据 来 判定 出 错 。62.752s 时 刻 接收 的 序列 
号 为 1775201 的 ACK (2158 号 包 ) 携带 了 一 个 TSOPT (时 间 戳 选项 )， 其 TSV (At Te) AVA) 
为 17152514， 而 重 传 包 的 TSV 为 17155274。 由 于 ACK 的 TSER (时 间 戳 回 显 重 试 ) 字段 包 
含 了 重 传 的 数据 段 ， 并 且 早 于 该 重 传 包 ， 因 此 认为 此 处 的 重 传 是 无 用 的 ， 接 收 方 在 重 传 前 已 
经 接收 到 了 该 数据 段 。 所 以 重 传 超时 也 是 无 效 的 。 

”由 于 超时 出 错 ，TCP 触发 了 Eifel 响应 算法 ,恢复 了 cwnd 和 ssthresh 的 值 ， 并 转 为 正常 
状态 ， 继 续 执行 拥塞 避免 算法 。 


16.5.6.2 ”快速 重 传 (事件 8 ) 

在 67.510s 时 刻 ， 接 收 了 一 个 序列 号 为 1789201 的 重复 ACK (2179 号 包 )， 包 含 SACK 
块 [1792001, 1793401]， 因 此 TCP 再 次 进入 失 序 (Disorder) 状态 。 至 此 已 发 送 数据 的 最 
大 序列 号 为 1806000。 再 次 到 来 的 SACK 信息 使 得 TCP 进入 恢复 (Recovery) RÆ, HE 
67.550s 时 刻 开 始 了 序列 号 为 1789201 的 又 一 次 快速 重 传 (2182 号 包 )。 这 使 得 ssthresh ME 
5, cwnd 也 相应 开始 减 小 。 随 着 67.916s 时 刻 序列 号 为 1806001 的 ACK (2197 号 包 ) 到 达 ， 
恢复 阶段 结束 。 


16.5.6.3 再 次 CWR (事件 9) 

在 77.121s 时 刻 ， 又 一 次 出 现 了 本 地 拥塞 事件 ， 此 时 的 cwnd = 18。 这 使 得 ssthresh 被 置 
为 9 并 再 次 进入 CWR 状态 。 然 而 ， 由 于 出 现 超 时 ， 这 次 CWR 中 cwnd 的 减 值 过 程 被 中 断 ， 
cwnd 只 减 小 了 1， 最 终 值 为 8。 


16.5.6.4 ”再 次 超时 (事件 10 ) 

再 次 超时 又 引发 了 新 一 轮 的 重 传 ， 在 78.515s 时 刻 又 发 送 了 序列 号 为 2175601 的 包 (图 
中 未 标记 )。cwnd 更 新 为 1，ssthresh 仍 为 9， 重 传 数据 段 的 TSOPT TSV 值 为 17171306。 
80.093s 时 刻 到 达 的 序列 号 为 2179801 的 ACK (2641 号 包 ) 的 TSOPT TSER 值 为 17169948， 
和 事件 7 的 超时 一 样 ， 拥 塞 操 作 也 被 撤销 了 。 此 时 flight size 估计 值 为 2 184 001 + 1400 - 
2 179 801 = 5600 字 节 (4 个 包 )， 由 于 拥塞 操作 撤销 ， 因 此 cwnd 仍 为 8， 这 样 将 允许 再 发 送 
4 个 新 数据 包 。 但 这 样 的 突 发 操作 可 能 会 造成 丢 包 ， 所 以 应 避免 发 送 。 

为 防止 这 种 突 发 行为 ，Linux TCP 实现 了 拥塞 窗口 调整 (congestion window moderation ) 
机 制 。 它 将 单个 ACK 能 触发 的 新 数据 包 发 送 个 数 限制 为 最 大 突 发 值 (maxburst)， 这 里 取 值 
为 3。 因 此 ，cwnd 被 设置 为 ( 在 外 数据 值 + 最 大 突出 值 ) =4+3 = 7。 拥 塞 窗口 调整 机 制 和 
TCP 中 的 相关 方法 一 致 ， 并 经 网 络 仿真 工具 NS-2 验证 。NS-2 在 开发 和 探讨 新 的 TCP 算法 
研究 中 被 广泛 使 用 。 


16.5.6.5 ”超时 和 最 后 一 次 恢复 (事件 11 ) 

如 图 16-16 所 示 ， 在 88.929s 时 刻 出 现 了 重 传 计时 器 超时 ， 引 发 了 序列 号 为 2185401 数 
据 包 的 重 传 。 

这 次 超时 使 得 发 送 端 进入 慢 启 动 状 态 ，ssthresh = 5。 这 次 TCP 不 能 撤销 超时 ， 因 此 cwnd 
被 置 为 1， 继 续 执行 慢 启动 。 从 下 面 的 传输 流 记 录 图 可 以 更 清楚 地 观察 (参见 图 16-17 )。 

序列 号 为 2185401 的 重 传 已 在 图 中 标 出 。 在 重 传 后 ， 与 连接 建立 初始 一 样 ， 开 始 了 慢 
启动 操作 。 根 据 每 个 到 达 ACK 确认 的 数据 包 个 数 ， 继 续 发 送 两 个 或 三 个 新 数据 包 。 直 到 
89.434s, cwnd 达到 ssthresh 的 值 (5 )，TCP 继续 执行 拥塞 避免 。 
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回 Transmission Control protocol, sre Port: Li 
Source port: 1059 (1059) 
Destination port: 6666 (6666) 
[stream index: 0] 
sequence number: 2185401 (relative sequence number) 
[Next sequence number: 2186801 (relative sequence number )] 
Acknowledgement number: 1 (relative ack number) 
Header length: 32 bytes 
@ Flags: 0x10 (ACK) 
window size: 5808 (scaled) 
@ Checksum: Oxf203 [unchecked, not al] data available] 
@ Options: (12 bytes) 
@ [SEQ/ACK analysis] 
已 [timestamps] 
[Time since first frame in this TCP stream: 88.928759000 seconds] 
[Time since previous frame in this TCP stream: 7.778774000 seconds] 


|| | Seq = 2185401 Ack = 1 
Seq = 1 Ack = 2186801 
Seq = 2186801 Ack = 1 
|| Seq = 2188201 Ack = 1 
|| Seq = 1 Ack = 21289601 
: || Seq = 2189601 Ack = 1 
Seq = 2191001 Ack = 1 
Seq = 2192401 Ack = 1 
Seq = 1 Ack = 2191001 
Seq = 2193801 Ack = 1 
| | Seq = 2195201 Ack = 1 
|| Seq = 1 Ack = 2193801 
|| Seq = 2196601 Ack = 1 
Seq = 2198001 Ack = 1 
Seq = 2199401 Ack = 1 
Seq = 1 Ack = 2195201 
| | Seq = 2200801 Ack = 1 
i} | Seq = 2202201 Ack = 1 
>| | Seq = 1 Ack = 2198001 
Seq = 2203601 Ack = 1 
Seq = 2205001 Ack = 1 
Seq = 1 Ack = 2199401 
| Seq = 2206401 Ack = 1 
Seq = 1 Ack = 2202201 
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16-17 在 Wireshark 显示 界面 中 ， 可 以 清楚 看 到 重 传 超时 后 
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16.5.7 ”连接 结束 


最 后 一 次 包 交 换 传输 中 ， 首 先 发 送 方 在 99.757s 时 刻 发 送 了 一 个 FIN 包 。 接 着 接收 方 返 
ET 13 个 ACK 和 一 个 FIN 包 。 在 100.476s 时 刻 发 送 了 最 后 一 个 包 ( 即 最 后 的 ACK)。 该 交 
换 过 程 参见 图 16-18。 


|| Seq = 2619401 Ack = 1 
I| | Seq = 2620801 Ack = 1 
Seq = 1 Ack = 2597001 


Seq = 1 Ack = 2618001 
T| | Seq= 1 Ack = 2619401 
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图 16-18 在 连接 关闭 过 程 中 ， 接 收 端 返回 了 13 个 纯 ACK 来 确认 发 送 端 发 送 的 所 有 数据 都 已 成 功 接收 。 
最 后 的 FIN-ACK 传输 关闭 了 接收 端 至 发 送 端的 连接 。 注 意 FIN 报 文 段 包 含 了 有 效 的 ACK 号 

传输 的 最 大 序列 号 为 2620801 + 640 - 1 = 2621440， 等 于 总 共 传 输 数据 大 小 2.5MB。 在 
99.757s 时 刻 ， 在 外 数据 量 为 (2 619 401 + 1400 - 2 594 201) /1400 + 1 = 20 个 包 。 到 达 的 13 
个 ACK (其 中 7 个 是 对 两 个 包 的 确认 ) 完成 了 全 部 (2*7) + (13 - 7) = 20 个 包 的 确认 。 注 意 到 
100.472s 时 刻 达 到 的 ACK 确认 的 两 个 数据 包 长 度 分 别 为 1400 和 640， 分 别 对 应 2 621 442 - 
2 619 401 = 1400 + 640。 

这 个 扩展 示例 涉及 了 我 们 之 前 讨论 过 的 大 部 分 算法 ， 包 括 基本 TCP 算法 ( 慢 启 动 、 拥 
塞 避免 ) 以 及 选择 确认 、 速 率 减 半 ， 包 括 一 些 比较 新 的 方法 如 伪 RTO 检测 等 。 下 面 我 们 将 
讨论 一 些 算法 的 改进 ， 以 及 那些 不 太 普遍 但 更 具 理论 性 或 者 更 新 的 方法 。Linux TCP 协议 栈 
实现 了 很 多 这 样 的 方法 ， 但 不 是 默认 启用 的 。 通 常 只 要 利用 sysctl 程序 稍 加 修改 就 能 使 用 。 
Windows 的 一 些 较 新 版 本 (Windows Vista 及 以 后 版 本 ) 也 都 实现 了 这 些 功能 的 改进 。 


16.6 ”共享 拥塞 状态 信息 


前 面 的 讨论 和 举例 都 是 针对 单一 的 TCP 连接 的 拥塞 处 理 操作 。 然 而 ， 相 同 的 主机 之 间 
随后 可 能 建立 新 的 连接 ， 这 些 新 连接 也 需要 重新 进行 拥塞 处 理 ， 建 立 自己 的 ssthresh 和 cwnd 
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值 。 在 许多 情况 下 ， 新 连接 可 能 会 用 到 相同 主机 之 间 的 其 他 连接 的 信息 ， 包 括 已 关闭 的 连接 
或 者 正 处 于 活动 状态 的 其 他 连接 。 这 就 是 相同 主机 间 多 个 连接 共享 拥塞 状态 信息 。 之 前 的 一 
篇 名 为 “TCP 控制 块 相 互 依赖 性 ”的 文章 [RFC2140] 描述 了 相关 内 容 ， 其 中 注意 区 分 了 暂时 
共享 (temporal sharing， 新 连接 与 已 关闭 连接 间 的 信息 共享 ) ARAF (ensemble sharing, 
新 连接 与 其 他 活动 连接 间 的 信息 共享 )。 

为 将 上 述 思想 形成 除 TCP 外 的 新 的 应 用 协议 ，[RFC3124] 提出 了 拥塞 管理 (Congestion 
Manager) 机 制 。 该 机 制 使 得 本 地 操作 系统 可 实现 相关 协议 来 了 解 链 路 状态 信息 ， 如 丢 包 率 、 
拥塞 估计 、RTT 等 。 

Linux 在 包含 路 由 信息 的 子 系统 中 实现 了 上 述 思 想 ， 即 第 15 章 已 经 提 到 的 目的 度量 。 这 
些 度量 默认 开启 〈 在 前 面 的 扩展 示例 中 ， 我 们 通过 设置 sysctl 变量 net.ipv4.tcp_no_metrics_ 
save 为 1 禁用 了 该 项 功能 )。 当 一 个 TCP 连接 关闭 前 ， 需 要 保存 以 下 信息 : RTT 测量 值 ( 包 
括 srtt 和 rttvar)、 重 排 估计 值 以 及 拥塞 控制 变量 cwnd 和 ssthresh。 当 相同 主机 间 的 新 连接 建 
立时 ， 就 可 以 通过 这 些 信 息 来 初始 化 相关 变量 。 


16.7 TCP 友好 性 


TCP 作为 最 主要 的 网 络 传输 协议 ， 在 传输 路 径 中 会 经 常 出 现 几 个 TCP 连接 共享 一 个 或 
多 个 路 由 的 情况 。 然 而 ， 它 们 并 非 均 匀 地 共享 带宽 资源 ， 而 是 根据 其 他 连接 动态 地 调节 分 
配 。 但 也 会 出 现 例外 情形 ， 如 TCP 与 其 他 ( 非 TCP) 连接 或 者 使 用 不 同 设置 的 TCP 连接 竞 
争 带宽 。 

为 避免 多 个 TCP 连接 对 传输 资源 的 恶性 竞争 ， 研 究 者 提出 了 一 种 基于 计算 公式 的 速率 
控制 方法 ， 限 制 特 定 环境 下 TCP 连接 对 带宽 资源 的 使 用 。 该 方法 称 为 TCP 友好 速率 控制 
( TCP Friendly Rate Control, TFRC) [RFC5348] [FHPW00]， 它 基于 连接 参数 和 环境 变量 (如 
RTT, ZAR) 实现 速率 限制 。 与 传统 TCP 相 比 ， 它 能 实现 更 高 的 带宽 利用 率 ， 因 此 更 适用 
于 流 媒体 这 种 大 传输 量 (如 视频 传输 ) 的 应 用 。TFRC 使 用 如 下 公式 来 决定 发 送 率 : 

X = s/(RV25p13 ) + 3ptaro(1 + 32p”) V3bp/8 ( 16-2 ) 

这 里 的 下 指 吞吐 率 限制 ( 字 节 / 秒 )，s 为 包 大 小 ( 字 节 ， 包 含 头 部 ), R 是 RTT ( 秒 ), p 
为 丢 包 率 [0, 0.1]，trro 为 重 传 超时 ( 秒 )，b 指 一 个 ACK 能 确认 的 最 大 包 个 数 。 建 议 tro KA 
4R,b 设 为 1。 

从 男 一 方面 来 看 TCP 发 送 率 ， 即 在 拥塞 避免 阶段 ， 怎 样 根据 接收 的 无 重复 ACK 来 调 
整 窗 口 大 小 。 回 顾 前 面 讨论 过 的 标准 TCP， 使 用 拥塞 避免 算法 时 ， 每 接收 一 个 好 的 ACK, 
cwnd 就 会 增加 l/cwnd， 而 每 当 出 现 一 次 丢 包 ，cwnd 就 会 减 半 ， 这 被 称 为 和 式 增加 / 积 式 减 
W ( Additive Increase/Multiplicative Decrease, AIMD) 拥塞 控制 。 通 过 将 1/cwnd 和 1/2 替换 
为 a 和 5b， 我 们 得 到 了 一 般 化 的 AIMD 等 式 : 

cwndi+1= cwnd, + a/cwnd, 
cwnd,+; = cwnd, — b*cwnd, 


根据 [FHP W00] 给 出 的 结果 ， 上 述 等 式 得 出 的 发 送 率 为 (以 包 个 数 /RTT 为 单位 ): 
a (2-b) 


6 (16-3 ) 


VP 
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Xİ FIZA TCP, a=1, b= 0.5， 这 样 上 式 就 简化 为 了 = 1.2/ WP ， 称 为 简化 的 标准 TCP 
响应 函数 。 它 的 TCP 速率 ( cwnd 调节 ) 只 和 丢 包 率 相关 ， 而 没有 考虑 重 传 超时 。 当 TCP 没 
有 受 其 他 因素 (发 送 方 或 接收 方 缓存 、 窗 口 缩放 等 ) 影响 时 ， 在 这 样 的 良性 环境 下 ， 简 化 区 
数 能 很 好 地 控制 TCP HERE. 

对 TCP 响应 函数 的 任何 修改 都 会 影响 它 (或 实现 了 相似 拥塞 控制 模式 的 其 他 协议 ) 与 标 
准 TCP 的 竞争 。 因 此 ， 通 常会 使 用 相对 公平 ( relative fairness) 的 方法 来 分 析 新 的 拥塞 控制 
模式 。 根据 丢 包 率 ， 相 对 公平 给 出 了 改进 拥塞 控制 模式 协议 和 标准 TCP 协议 的 速率 比 。 这 
是 衡量 改进 模式 在 带宽 共享 方面 公平 性 的 重要 指标 。 

要 建立 与 标准 TCP 公平 竞争 的 速率 调节 机 制 ， 理 解 上 述 公 式 只 是 第 一 步 。 针 对 特定 的 
协议 ， 实现 TFRC 会 存在 具体 的 细节 差异 ， 包 括 怎样 正确 测量 RTT、 丢 包 率 、 包 大 小 等 。 这 
些 问题 在 [RFC5348] 中 有 详细 讨论 。 


16.8 ”高 速 环境 下 的 TCP 


在 BDP 较 大 的 高 速 网 络 中 (如 1Gb/s 或 者 更 大 的 无 线 局 域 网 )， 传 统 TCP 可 能 不 能 表现 
出 很 好 的 性 能 。 因 为 它 的 窗口 增加 算法 (特别 是 拥塞 避免 算法 ) 需要 很 长 一 段 时 间 才 能 使 窗 
口 增 至 传输 链 路 饱和 。 也 就 是 说 ， 即 使 没有 拥塞 发 生 ，TCP 也 不 能 很 好 地 利用 高 速 网 络 。 产 
生 这 一 问题 的 原因 主要 在 于 拥塞 避免 算法 中 的 增 量 为 固定 值 。 如 果 一 个 TCP 使 用 1500 字 节 
的 数据 包 在 一 个 10Gb/s 的 长 距离 链 路 上 传输 ,假设 没有 出 现 丢 包 和 传输 错误 ， 要 想 完全 利 
用 所 有 的 带宽 需要 83 000 个 报 文 段 。 若 每 个 RTT 为 100 BR, FER 50 亿 个 数据 包 传 输 大 约 
需要 1.5 个 小 时 。 为 了 弥补 这 一 不 足 ， 研 究 人 员 致 力 于 改进 TCP 协议 ， 使 其 在 高 速 网 络 环境 
下 能 够 获得 更 好 的 性 能 ， 并 且 在 一 定 程 度 上 保持 与 标准 TCP 的 公平 性 ， 特 别 是 在 更 为 普遍 
的 低速 环境 中 。 


16.8.1 Bmw TCP 与 受 限 的 慢 启动 


高 速 TCP (HSTCP) 的 技术 说 明 [RFC3649] [RFC3742] 指出 ， 当 拥塞 窗口 大 于 一 个 基础 
值 Low_Window 时 ， 应 当 调 整 标准 TCP 的 处 理 方式 。 其 中 Low_Window 设置 为 38 个 MSS。 
这 个 值 与 前 面 提 到 的 简化 的 标准 TCP 响应 函数 所 给 出 的 10- 丢 包 率 相 一 致 。 其 发 送 速 率 和 
丢 包 率 在 双 对 数 坐 标 系 中 是 线性 相关 的 ， 所 以 它 是 一 个 具有 舌 律 特性 的 函数 。 


注意 在 双 对 数 坐 标 系 中 形成 一 条 直线 的 函数 称 为 究 律 (power law) 函数 ， 其 方程 
式 为 y= qx*， 也 可 表示 为 logy=loga+klogx (a 和 上 是 常数 )， 在 双 对 数 坐 标 系 
中 是 一 条 斜率 为 上 的 直线 。 


为 建立 寡 律 函数 ， 我 们 需要 选择 两 个 点 ， 然 后 建立 一 个 方程 式 ， 使 这 个 方程 式 所 描述 的 
直线 经 过 这 两 个 点 。 假 设 这 两 个 点 分 别 为 (Pi, Wi) 和 (Po, Wo), Ep w> Ji>0 且 0 < pı < Poo 
在 一 个 线性 坐标 系 中 ， 这 两 个 点 会 建立 一 个 斜率 为 (wi - Wo) / (pi - Po) 的 直线 ， 但 是 在 双 对 
数 坐 标 系 中 ,它们 所 形成 的 直线 的 斜率 S = (log wi -log Wo) / (log pi — log Po). 然后， 基于 前 
面 提 到 的 公式 ,我 们 可 以 得 到 w = Cp*”。 我 们 还 需要 一 个 点 来 定义 C， 这 个 点 可 以 是 (Po, Wo). 
经 过 一 系列 代数 计算 ,我 们 可 以 得 出 C= Po, Bl w=p Pi Woo 

图 16-19 给 出 了 基于 点 (Pu Wo) = (0.0015, 31) E S = - 0.82 的 传统 TCP 和 HSTCP 响应 
函数 的 图 示 。 在 丢 包 率 较 大 的 情况 下 (大 于 0.001 )， 两 者 没有 差别 ， 所 以 该 表达 式 只 适用 于 
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疡 值 较 大 的 情况 。 比 较 这 两 条 直线 ， 当 丢 包 率 足 够 小 时 ，HSTCP 可 以 达到 更 快 的 发 送 速率 。 


100000 T T x T T 让 T T EE 
^N, (107, 83000) 










10000 


1000 





发 送 速 率 S (数据 包 /RTT) 


常规 TCP (S =1.22/P“) 一 一 
高 速 TCP (S =0.15/P°) 一 -一 





1 Be da _——E 
le-10 le-09 le-08 le-07 le-06 le-05 0.0001 0.001 0.01 0.1 
KURP 


图 16-19 ÆRE TOP 中 ， 针 对 更 低 的 丢 包 率 和 更 大 的 窗口 ，TCP 响应 函数 需要 做 相应 的 调整 ， 从 而 在 
高 带宽 延迟 积 的 网 络 中 获得 更 大 的 吞吐 量 。 图 片 来 自 Sally Floyd 2003 年 3 月 在 IETF TWVWG 
的 演讲 


为 了 使 TCP 实现 上 述 响 应 函数 ， 需 要 调整 拥塞 避免 机 制 。 当 窗口 发 生 改变 时 ， 需 要 考 
虑 当前 的 窗口 大 小 。 与 传统 TCP 类 似 ， 在 接收 一 个 好 的 ACK 后 需要 参考 当前 窗口 大 小 来 调 
整 窗口 值 。 具 体 响应 如 下 : 
cwnd, +; = cwnd, + a (cwnd,) /cwnd, 
当 对 于 拥塞 事件 进行 响应 时 (例如 丢 包 ， 或 者 发 现 ECN 标志 )， 它 的 响应 如 下 : 
cwnd,+; = cwnd, — b (cwnd,) * cwnd, 
这 里 的 a0 是 和 式 增加 函数 ， 而 20 是 积 式 减 小 函数 。 在 标准 TCP 中 ， 它 们 都 是 当前 窗 
口 大 小 的 相关 函数 。 为 了 获得 预期 的 响应 函数 ， 我 们 首先 由 公式 〈16-3 ) 推广 得 出 以 下 公式 : 


Ja (w)(2- 5 (w) ) 
2b (w) 


VPo 

变换 得 : 

a (w) = 2PoWi b (w) / (2 - b (w) ) 

上 述 关 系 式 有 多 个 解 ， 也 就 是 说 ， 有 多 种 a() 和 bO 的 组 合 方式 可 以 满足 ， 然 而 有 些 解 
对 于 调度 算法 来 说 并 不 适用 。 

[RFC3649] 中 还 给 出 了 其 他 的 HSTCP 对 传统 TCP 的 拥塞 避免 改进 的 细节 。[RFC3742] 
描述 了 如 何 修改 慢 启动 阶段 ， 使 其 在 高 速 环 境 下 得 到 运行 中 的 拥塞 窗口 值 。 它 被 称 为 受 限 的 
慢 启 动 ， 即 减 慢 速度 的 慢 启动 ， 这 样 在 处 理 大 窗口 的 情况 下 ( 几 千 甚至 几 万 个 数据 包 )，TCP 
不 会 在 一 个 RTT 中 使 窗口 翻 倍 。 

在 受 限 的 慢 启动 阶段 ， 引 入 了 一 个 新 的 参数 称 为 max_ssthresh。 这 个 值 不 是 ssthresh 的 
最 大 值 ， 而 是 cwnd 的 一 个 阔 值 : 如 果 cwnd < = max_ssthresh， 则 慢 启动 阶段 与 传统 TCP 相 
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同 。 如 果 max_ssthresh < cwnd <= ssthresh, A cwnd 在 每 个 RTT 中 最 大 只 能 增长 (max_ 
ssthresh/2) 个 SMSS。 具 体 管理 cwnd 的 方式 如 下 : 


if (cwnd <= max_ssthresh) { 
cwnd = cwnd + SMSS (regular slow start) 
} else { 
K = int(cwnd / (0.5 * max_ssthresh) ) 
cwnd = cwnd + int((1/K) *SMSS) (limited slow start) 
了 } 


建议 max_ssthresh 的 初始 值 为 100 个 包 ， 或 者 100*SMSS 个 字 节 。 


16.8.2 二进制 增长 拥塞 控制 (BIC 和 CUBIC) 


HSTCP 是 为 在 大 BDP 网 络 中 实现 高 吞吐 量 的 一 种 TCP 修改 方案 。 它 兼顾 了 在 普通 环境 
下 与 传统 TCP 的 公平 性 ， 但 在 特殊 环境 中 能 够 达到 更 快 的 发 送 速度 。 在 多 个 具有 不 同 RTT 
的 连接 竞争 带宽 时 ，HSTCP 不 会 直接 控制 这 些 竞争 行为 ( 称 为 “ RTT 公平 性 ”)。 对 标准 
TCP 的 研究 表明 ， 当 使 用 相同 的 数据 包 大 小 和 ACK 策略 时 ， 较 小 的 RTT 在 共享 传输 路 径 上 
能 获得 更 大 的 带宽 [F91]。 对 于 能 根据 自身 窗口 大 小 来 调节 cwnd 增长 值 的 TCP ( 称 为 带宽 可 
扩展 TCP) 来 说 ， 这 种 不 公平 性 表现 得 更 加 严重 。 是 否 遵守 RTT 公平 性 一 直 是 一 个 存在 争论 
的 话题 。 尽 管 第 一 感觉 认为 RTT 公平 性 是 必要 的 , 但 是 拥有 较 大 RTT 的 连接 可 能 会 使 用 更 
多 的 网 络 资源 (例如 经 过 更 多 的 路 由 器 )， 所 以 拥有 和 较 小 的 吞吐 量 也 是 合理 的 。 不 论 是 哪 种 观 
点 ， 了 解 RTT 的 公平 性 (或 不 公平 性 ) 行为 是 我 们 接 下 来 探讨 各 个 TCP 改进 版 本 的 动因 。 


16.8.2.1 BIC-TCP 算法 

为 建立 一 种 可 扩展 的 TCP 及 解决 RTT 公平 性 问题 ， 提 出 了 BIC-TCP 算 法 (之 前 称 为 
BI-TCP 算法 ) [XHR04]， 并 从 Linux 2.6.8 内 核 版 本 中 开始 应 用 。BIC TCP 算法 的 主要 目的 
在 于 ， 即 使 在 拥塞 窗口 非常 大 的 情况 下 (需要 使 用 高 带宽 的 连接 )， 也 能 满足 线性 RTT 公平 
性 (linear RTT fairness)。 线 性 RTT 公平 性 是 指 连接 得 到 的 带宽 与 其 RTT 成 反比 ， 而 不 是 一 
些 更 复杂 的 函数 。 

该 方法 使 用 了 两 种 算法 来 修改 标准 TCP 发 送 端 : 二 分 搜索 增 大 (binary search increase) 
All 40 £38 K (additive increase)。 这 些 算 法 在 出 现 一 个 拥塞 信号 (如 丢 包 ) 后 被 调用 ， 但 是 在 
任 一 给 定时 刻 只 运行 一 种 算法 。 二 分 搜索 增 大 算法 的 操作 过 程 如 下 : 当前 最 小 窗口 是 最 近 一 
次 在 一 个 完整 RTT 中 没有 出 现 丢 包 的 窗口 大 小 ， 最 大 窗口 是 最 近 一 次 出 现 丢 包 时 的 窗口 大 
小 。 预 期 窗口 位 于 这 两 个 值 之 间 。BIC-TCP 使 用 二 分 搜索 技术 选择 这 两 个 值 的 中 点 作为 一 
试验 的 窗口 ， 然 后 进行 递归 。 如 果 这 个 点 依然 会 发 生 丢 包 ， 那 么 将 它 设置 为 最 大 窗口 ， 然 后 
继续 重复 上 述 过 程 。 如 果 不 发 生 丢 包 ， 那 么 将 它 设置 为 新 的 最 小 窗口 ， 然 后 同样 继续 重复 上 
述 过 程 。 直 到 最 大 窗口 和 最 小 窗口 的 差 值 小 于 一 个 预先 设置 好 的 阔 值 时 ， 这 一 过 程 才 停止， 
其 中 这 个 靖 值 被 称 为 最 小 增 量 (minimum increment)， 或 者 Smino 

这 一 算法 往往 会 在 一 个 对 数 级 的 试验 次 数 内 找到 预期 窗口 ， 也 被 称 为 饱和 点 〈saturation 
point)。 而 标准 TCP 则 需要 多 项 式 级 的 次 数 (平均 为 窗口 大 小 差 值 的 一 半 )。 因 此 ， 这 种 方法 
使 BIC-TCP 在 特定 的 处 理 阶段 拥有 比 标准 TCP 更 快 的 速度 。 它 是 为 充分 利用 高 速 网 络 没 有 
不 必要 延 时 的 优点 而 设计 的 。 与 其 他 协议 相 比较 ，BIC-TCP 表现 得 有 所 不 同 ， 它 的 增长 速率 
在 一 些 时 间 点 是 下 降 的 ， 也 就 是 说 ， 越 接近 饱和 点 ， 它 增长 得 越 慢 。 而 大 多 数 其 他 算法 在 接 
近 饱 和 点 时 都 会 增长 得 更 快 。 
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加 法 增 大 算法 运作 过 程 如 下 : 当 使 用 二 分 搜索 增 大 算法 时 ， 可 能 会 出 现 当前 窗口 大 小 
与 中 间 点 〈 从 二 分 搜索 意义 上 说 ) 之 间 差 距 很 大 。 由 于 可 能 出 现 罕 然 大 量 数据 注入 网 络 的 情 
况 ， 所 以 在 一 个 RTT 内 将 窗口 增 大 到 中 间 点 可 能 并 不 是 一 个 好 方法 。 这 种 情况 下 就 要 采用 
加 法 增 大 算法 。 当 中 间 点 与 当前 窗口 大 小 之 间 的 差 值 大 于 一 个 特定 值 Sw 的 时 候 ， 将 调用 
加 法 增 大 算法 。 此 时 ， 增 量 被 限制 为 每 个 RTT 增加 Swax， 这 一 增 量 被 称 为 窗口 夹 (window 
clamping)。 一 旦 中 间 点 距离 试验 窗口 比 距 离 Sm 值 更 近 时 ， 则 转换 为 使 用 二 分 搜索 增 大 算 
法 。 总 的 来 说 ， 当 检测 到 丢 包 现象 ， 窗 口 会 使 用 乘法 系数 8 来 减 小 ， 而 窗口 增 大 时 ， 首先 使 
用 加 法 增 大 算法 ， 之 后 一 旦 确认 加 法 增 量 小 于 Sma 时 就 转 为 使 用 二 分 搜索 增 大 算法 。 这 种 组 
合 的 算法 称 为 二 进 制 增长 (binary increase), A BI. 

当 窗 口 增 至 超过 当前 最 大 值 ， 或 由 于 还 没有 丢 包 发 生 而 没有 已 知 的 最 大 值 时 ， 增 长 会 终 
止 。 这 是 由 最 大 值 探测 (max probing) 机 制 所 实现 的 。 最 大 值 探测 的 目的 是 有 效 地 利用 带宽 。 
它 使 用 一 种 加 法 增 大 和 二 分 搜索 增 大 的 对 称 方式 。 初 始 时 ， 它 设置 了 一 个 较 小 的 增 量 。 之 后 
如 果 没 有 检测 到 拥塞 ， 它 就 会 使 用 更 大 的 增 量 。 因 为 在 饱和 点 附近 变化 量 较 小 ， 而 且 在 饱和 
点 处 网 络 能 够 表现 出 最 佳 的 性 能 ， 所 以 这 种 方法 具有 良好 的 稳定 性 。 

Linux 系统 (内 核 版 本 2.6.8 至 2.6.17) 中 实现 了 BIC-TCP 算法， 并 默认 开启 。 有 4 个 系 
统 参数 用 来 控制 它 的 操作 : net.ipv4.tcp_bic、net.ipv4.tcp_bic_beta、net.ipv4.tcp_bic low_window 
和 net.ipv4.tcp_bic_fast_convergence。 第 一 个 布尔 变量 用 来 控制 是 否 使 用 BIC (与 传统 的 快速 重 
传 和 快速 恢复 相对 应 )。 第 二 个 变量 包含 了 一 个 比例 因子 ， 它 可 以 通过 cwnd 值 来 决定 Sma 值 
(默认 为 819 ) 。 第 三 个 参数 控制 在 运行 BIC-TCP 算法 前 的 最 小 拥塞 窗口 的 大 小 。 它 的 默认 
值 为 14， 这 意味 着 标准 TCP 拥塞 控制 决定 最 小 窗口 。 最 后 一 个 参数 是 一 个 标志 位 ， 默 认 状 
态 下 是 开启 的 。 在 二 分 搜索 增 大 算法 处 于 下 降 趋 势 时 ， 它 会 影响 新 的 最 大 窗口 和 目标 窗口 的 
选择 。 在 窗口 减 小 的 过 程 中 ， 新 的 最 大 窗口 和 最 小 窗口 将 被 分 别 设置 为 cwnd 和 一 定 比例 的 
cwnd {H (由 参数 8 决定 ， 即 B*+cwnd)。 如 果 启用 快速 收敛 ， 并且 新 的 最 大 值 小 于 它 之 前 的 
值 ， 那 么 最 大 窗口 将 在 它 与 最 小 窗口 的 平均 值 范 围 内 继续 减 小 。 在 这 之 后 ， 不 论 快 速 收敛 是 
否 开启 ， 目 标 窗口 将 设置 为 最 大 窗口 与 最 小 窗口 的 平均 值 。 这 种 方式 有 助 于 在 多 个 BIC-TCP 
流 共享 一 个 路 由 器 时 ， 更 快 地 分 配 带宽 。 


16.8.2.2 CUBIC 

BIC-TCP 的 开发 者 对 基本 算法 进行 改进 ， 形 成 新 的 控制 算法 ， 称 为 CUBIC [HRX08]。 
自 2.6.18 内 核 版 本 起 ， 它 一 直 是 Linux 系统 的 默认 拥塞 控制 算法 。CUBIC 改进 了 BIC-TCP 
在 一 些 情况 下 增长 过 快 的 不 足 ， 并 对 窗口 增长 机 制 进行 了 简化 。 它 不 像 BIC-TCP 那样 使 用 
EL (Sm) 来 决定 何 时 调用 加 法 增 大 算法 和 二 分 搜索 增 大 算法 ， 而 是 使 用 一 个 高 阶 多 项 式 
函数 (具体 来 说 是 一 个 三 次 方程 ) 来 控制 窗口 的 增 大 。 三 次 方程 的 曲线 既 有 凸 的 部 分 也 有 站 
的 部 分 。 这 就 意味 着 ， 在 一 些 部 分 ( 止 的 部 分 ) 增长 比较 缓慢 ， 而 在 另 一 些 部 分 ( 凸 的 部 分 ) 
增长 比较 迅速 。 在 BIC 算法 和 CUBIC 算法 之 前 ， 所 有 TCP 研究 提出 的 都 是 凸 的 窗口 增长 函 
数 。CUBIC 算法 中 ， 这 个 特殊 的 窗口 增长 函数 如 下 所 示 : 

W (t)=C(t-K) + Wo 

EASRA, WO) 代表 在 时 刻 :的 窗口 大 小 ，C 是 一 个 常量 (默认 为 0.4 ), 1 是 距 
离 最 近 的 一 次 窗口 减 小 所 经 过 的 时 间 ， 以 秒 为 单位 。 天 是 在 没有 丢 包 的 情况 下 窗口 从 WK 
到 Wma 所 用 的 时 间 。Wiwax 是 最 后 一 次 调整 前 的 窗口 大 小 。 其 中 天 可 依据 以 下 表达 式 计 算 : 
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3 
K= BWoax 
E 


其 中 5 是 积 式 减 少 的 常量 (默认 为 0.2 )。 图 16-20 8 K =2.71, Wx = 10、C = 0.4 时 ， 在 时 
间 段 为 1= [0, 5] 时 CUBIC 窗口 增 大 算法 的 图 示 。 

图 中 显示 了 CUBIC 窗口 增 大 函数 既 包 含 凸 的 部 分 也 包含 目的 部 分 ， 当 发 生 快 速 重 传 
Ay, Wax 被 设置 为 cwnd， 新 的 cwnd 值 和 ssthresh 值 被 设置 为 Bh* cwnd。CUBIC 算法 中 的 8 
WEY 0.8. W (t+ RTT) 值 是 下 一 个 目标 窗口 的 值 。 当 在 拥塞 避免 阶段 ， 每 收 到 一 个 ACK， 
cwnd 值 增加 (W (t + RTT) - cwnd) /cwnd。 

值得 注意 的 是 ， 将 上 设置 为 距 上 次 窗口 减 小 经 过 的 时 间 ， 有 助 于 确保 RTT 的 公平 性 。 这 
里 并 不 使 用 固定 值 对 窗口 进行 改变 ， 而 用 关于 上 的 函数 来 调节 窗口 大 小 。 这 种 方法 将 窗口 变 
更 操作 从 传统 模式 中 分 离 出 来 。 












—— 


W (t) 
W (t) = 4(t-2.71) +10 / 










稳定 状态 阶段 
(W(t) < no) 


窗口 大 小 






最 大 值 
探测 阶段 
(W(t) > Wimax) 


0 1 2 3 4 5 
时 间 (1) 
图 16-20 CUBIC 窗口 增长 函数 是 一 个 关于 t+ 的 三 次 函数 。 它 在 (i) < Wa 的 区 域 是 止 函 数 。 在 这 一 
区 域 ，cwnd 的 增长 越 来 越 慢 。 在 达到 Wo 之 后 ， 增 长 函数 变 为 凸 函数 。 在 这 一 区 域 ，cwnd 
的 增长 越 来 越 快 


除了 三 次 方程 之 外 ，CUBIC 还 有 “TCP 友好 ”策略 。 当 窗口 太 小 使 得 CUBIC 不 能 获得 

比 传统 TCP 更 好 的 性 能 时 ， 它 将 会 开始 工作 。 根 据 上 可 以 得 到 标准 TCP 的 窗口 大 小 Wey (t): 
t 1 一 

RTT ae +Wonax B 
当 在 拥塞 避免 阶段 有 一 个 ACK 到 达 时 ， 如 果 cwnd 值 小 于 Wep (A, BBA CUBIC 将 cwnd 值 
设置 为 Wiep (0。 这 种 方法 确保 了 CUBIC 在 一 般 的 中 低速 网 络 中 的 TCP 友好 性 ， 而 在 这 些 网 
络 中 标准 TCP 相对 CUBIC 算法 更 具 优 势 。 

如 前 所 述 ， 从 Linux 2.6.18 内 核 版 本 起 ，CUBIC 算法 就 是 Linux 系统 的 默认 拥塞 控制 算 
法 。 而 从 2.6.13 版 开始 ,Linux 支持 可 装卸 的 拥塞 避免 模块 [P07]， 用 户 可 以 选择 想 用 的 算法 。 
变量 net.ipv4.tcp_congestion_control 表示 当前 默认 的 拥塞 控制 算法 (默认 为 cubic)。 变 量 net. 
ipv4.tcp_available_congestion_control 表示 系统 所 载 人 的 拥塞 控制 算法 (一 般 ， 其 他 的 算法 可 
被 作为 内 核 模 块 载 人 )。 变 量 net.ipv4.tcp_allowed_congestion_control 表示 用 户 人 允许 应 用 程序 
使 用 的 算法 (可 以 具体 选择 或 者 设 为 默认 )。 它 默认 支持 CUBIC 算法 和 Reno 算法 。 
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16.9 基于 延迟 的 拥塞 控制 算法 


前 面 介 绍 的 拥塞 控制 方法 都 是 通过 检测 丢 包 、 利 用 一 些 ACK Bk SACK 报 文 探 测 ECN 
算法 (如 果 可 用 )、 重 传 计时 器 的 超时 来 触发 的 。ECN 算法 ( 16.11 节 ) 允许 一 个 TCP 发 送 
端 向 网 络 报告 拥塞 状况 ， 而 不 用 检测 丢 包 。 但 是 这 要 求 网 络 中 每 一 个 路 由 器 的 参与 ， 比 较 
难以 实现 。 然 而 ， 在 没有 ECN 的 情况 下 ， 判 断 网 络 中 的 主机 是 否 发 生 拥 塞 也 是 可 能 的 。 当 
发 送 端 不 断 地 向 网 络 中 发 送 数据 包 时 ， 不 断 增 长 的 RTT 值 就 可 以 作为 拥塞 形成 的 信号 。 我 
们 在 图 16-8 中 看 到 过 这 种 情况 。 新 到 达 的 数据 包 没 有 被 发 送 ， 而 是 进入 等 待 队列 ， 这 就 造 
成 了 RTT 值 不 断 增 大 〈 直 到 数据 包 最 终 被 丢弃 ) 。 一 些 拥塞 控制 技术 就 是 根据 这 种 情况 提出 
的 。 它 们 被 称 为 基于 延迟 的 拥塞 控制 算法 ， 与 我 们 至 今 为 止 看 到 的 基于 丢 包 的 拥塞 控制 算 
法 相对 。 


16.9.1 Vegas 算法 


TCP Vegas 算法 于 1994 年 被 提出 [BP95]。 它 是 TCP 协议 发 布 后 的 第 一 个 基于 延迟 的 拥 
塞 控 制 方法 ， 并 经 过 了 TCP 协议 开发 组 的 测试 。Vegas 算法 首先 估算 了 一 定时 间 内 网 络 能 够 
传输 的 数据 量 ， 然 后 与 实际 传输 能 力 进 行 比较 。 若 本 该 传输 的 数据 并 没有 被 传输 ， 那 么 它 有 
可 能 被 链 路 上 的 某 个 路 由 器 挂 起 。 如 果 这 种 情况 持续 不 断 地 发 生 ， 那么 Vegas 发 送 端 将 降低 
发 送 速率 。 这 与 标准 TCP 中 利用 丢 包 来 判断 是 否 发 生 拥 塞 的 方法 相对 。 

在 拥塞 避免 阶段 ，Vegas 算法 测量 每 个 RTT 中 所 传输 的 数据 量 ， 并 将 这 个 数 除 以 网 络 中 
观察 到 的 最 小 延迟 时 间 。 算 法 维护 了 两 个 国 值 c 和 8 (a 小 于 Bp)。 当 吞吐 量 (窗口 大 小 除 以 
观察 到 的 最 小 RTT) 与 预期 不 同时 ， 若 得 到 的 吞吐 量 小 于 a， 则 将 拥塞 窗口 增 大 ; 若 吞 吐 量 
大 于 8， 则 将 拥塞 窗口 减 小 。 吞 吐 量 在 两 闽 值 之 间 时 ， 拥 塞 窗口 保持 不 变 。 拥 塞 窗口 所 有 的 
改变 都 是 线性 的 ， 这 意味 着 这 种 方法 是 一 种 和 式 增加 /和 式 减 少 (Additive Increase/Additive 
Decrease, AIAD) 的 拥塞 控制 策略 。 

作者 通过 链 路 瓶颈 处 的 缓冲 区 利用 率 来 描述 x 和 8。x 和 8 的 最 小 值 分 别 设置 为 1 和 3。 
设置 该 值 的 原因 是 : 在 网 络 中 至 少 有 一 个 数据 包 缓 冲 区 会 被 占用 (也 就 是 说 ， 路 由 器 上 的 队 
列表 示 网 络 链 路 上 的 最 小 带宽 ) 才能 保持 网 络 资源 被 充分 利用 。 如 果 Vegas 只 维护 一 个 缓冲 
K, 那么 当 有 其 他 可 用 带宽 时 ， 就 要 等 待 额外 的 RIT 时 间 。 因 此 为 了 传输 更 多 的 数据 ， 需 
要 多 使 用 两 个 缓冲 区 (达到 3，a 的 值 )。 此 外 ， 保 持 一 个 区 间 (Bb - a) 可 以 保留 一 部 分 空间 ， 
使 得 吞吐 量 可 以 有 小 幅 改 变 而 不 至 引发 窗口 大 小 的 改变 。 这 种 缓冲 机 制 可 以 减少 网 络 的 震荡 。 

稍 加 修改 后 ， 这 种 方法 也 适用 于 慢 启动 阶段 。 这 里 ， 每 隔 一 个 RTT，cwnd 值 才 随 着 一 
个 好 的 ACK 响应 而 加 1。 对 于 cwnd 没有 增长 的 RTT， 需 要 测量 吞吐 量 是 否 在 增长 。 如 果 没 
有 ， 发 送 端 将 转 为 Vegas 拥塞 避免 方式 。 

在 特定 情况 下 ，Vegas 算法 会 盲目 地 相信 前 向 的 延迟 会 高 于 它 实际 的 值 。 这 种 情况 发 生 
在 它 相 反 的 方向 产生 了 拥塞 (回忆 一 下 ，TCP 连接 的 两 个 方向 的 链 路 可 能 会 不 同 ， 并 产生 不 
同 程度 的 拥塞 状态 )。 在 这 种 情况 下 ， 虽 然 不 是 发 送 端 导致 了 ( 反 向 的 ) 拥塞， 但 是 返回 发 
送 端的 数据 包 ( ACK) 会 产生 延迟 。 这 就 使 得 在 这 种 不 是 真正 需要 调整 拥塞 窗口 的 情况 下 ， 
减 小 了 窗口 大 小 。 这 是 大 多 数 基于 测量 RTT 来 进行 拥塞 控制 判断 的 方法 所 共有 的 潜在 缺陷 。 
甚至， 在 反方 向 上 严重 的 拥塞 问题 会 导致 ACK 时 钟 (图 16-1 ) 的 严重 紊乱 [M92]. 

Vegas 与 其 他 的 Vegas TCP 连接 平等 共用 一 条 链 路 ， 因 为 每 一 次 向 网 络 中 传输 的 数据 量 
都 很 小 。 然 而 ，Vegas 与 标准 TCP 流 共 用 链 路 时 则 是 不 平等 的 。 标 准 TCP 的 发 送 端 想 要 占 
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满 网 络 中 的 等 待 队列 ， 反 之 Vegas 则 是 想 使 它们 保持 空闲 。 因 此 ， 当 标准 TCP 发 送 端 发 送 数 
据 包 时 ，Vegas 发 送 端 会 发 现 延 迟 在 增长 ， 那 么 它 就 会 降低 发 送 速率 。 最 终 ， 这 导致 了 只 对 
标准 TCP 有 利 的 状态 。Linux 系统 支持 Vegas， 但 不 是 默认 开启 的 。 对 于 2.6.13 之 前 的 内 核 
版 本 来 说 ， 布 尔 型 sysctl 变量 net.ipv4.tep vegas cong avoid 决定 了 是 否 使 用 Vegas (默认 为 
0 )。 变 量 net.ipv4.tcp_vegas_alpha (默认 为 2 ) 和 变量 net.ipv4.tcp_vegas_beta (默认 为 6 ) 决 
定 了 上 面 提 到 的 a 和 8 值 ,但 是 它们 的 单位 是 半 个 数据 包 (也 就 是 说 ,6 对 应 着 3 个 数据 包 )。 
变量 net.ipv4.tcp_vegas_gamma (默认 为 2 ) 用 于 配置 在 经 过 多 少 个 半数 据 包 后 Vegas 结束 慢 
启动 阶段 。 对 于 2.6.13 之 后 的 内 核 版 本 ，Vegas 需要 作为 分 离 的 内 核 模块 被 载 人 ， 通 过 设置 


net.ipv4.tcp_congestion_control 来 启动 vegas。 


16.9.2 FAST 算法 


FAST TCP 算法 是 为 处 理 大 带宽 延迟 的 高 速 网 络 环境 下 的 拥塞 问题 而 提出 的 [WJLH06]。 
原理 上 与 Vegas 算法 相同 ， 它 依据 预期 的 吞吐 量 和 实际 的 吞吐 量 的 不 同 来 调整 窗口 。 与 
Vegas 算法 不 同 的 是 ， 它 不 仅 依 据 窗口 大 小 ， 而 且 还 依据 当前 性 能 与 预期 值 的 不 同 来 调整 窗 
Ho FAST 算法 会 使 用 速率 起 捕 (rate-pacing) 技术 每 隔 一 个 RIT 都 会 更 新 发 送 率 。 如 果 测 量 
延迟 远 小 于 阔 值 时 ， 窗 口 会 进行 较 快 增长 ， 一 段 时 间 后 会 逐渐 平缓 增长 。 当 延迟 增 大 时 则 相 
反 。FAST 算法 与 我 们 之 前 所 说 的 方法 不 同 ， 因 为 在 其 中 包含 了 一 些 专利 ， 并 且 它 正 被 独立 
地 商业 化 。FAST 算法 被 一 些 研 究 机 构 质疑 缺乏 安全 性 ， 但 是 一 个 评估 报告 [S09] 显示 它 具 
有 良好 的 稳定 性 和 公平 性 。 


16.9.3 TCP Westwood 算法 和 Westwood+ 算法 


TCP Westwood 算法 (TCPW) 和 TCP Westwood + 算法 (TCPW +) 的 设计 目的 在 于 ， 通 
过 修改 传统 的 TCP NewReno 发 送 端 来 实现 对 大 带宽 延迟 积 链 路 的 处 理 。TCPW + 算法 是 对 
TCPW 算法 的 修正 ， 所 以 这 里 只 对 TCPW 算法 进行 说 明 。 在 TCPW 算法 中 ， 发 送 端的 合格 
速率 估计 (ERE) 是 一 种 对 连接 中 可 用 带宽 的 估计 。 类 似 Vegas 算法 (基于 预期 速率 与 实际 
速率 的 差别 )， 该 估计 值 被 不 断 计 算 。 但 是 不 同 的 是 ， 对 于 这 个 速率 的 测量 会 有 一 个 测量 间 
m, AEF ACK 的 到 达 动 态 可 变 。 当 拥塞 现象 不 明显 时 ， 测 量 间 隔 会 比较 小 ， 反 之 亦 
然 。 当 检测 到 一 个 数据 包 丢 失 的 时 候 ，TCPW 不 会 将 cwnd 值 减 半 ， 而 是 计算 一 个 估计 的 
BDP 值 ( ERE 乘 以 观察 到 的 最 小 RTT)， 并 将 这 个 值 作为 新 的 ssthresh 值 。 另 一 方面 ， 在 连 
接 处 于 慢 启 动 阶段 时 ， 使 用 一 种 灵活 的 探测 机 制 ( Agile Probing) [WYSG05] 适应 性 地 反复 
设置 ssthresh 值 。 因 此 当 ssthresh 值 增长 时 (由 于 初始 的 慢 启动 ),cwnd 值 会 以 指数 形式 增长 。 
在 Linux 2.6.13 之 后 的 内 核 版 本 中 ， 可 以 通过 加 载 一 个 TCPW 模块 ， 并 设置 net.ipv4.tcp_ 
congestion_control 为 Westwood 来 启动 Westwood. 


16.9.4 复合 TCP 


类 似 于 Linux 系统 中 的 可 装 件 的 拥塞 避免 模块 ， 从 Windows Vista 系统 开始 ， 用 户 也 可 
以 自主 选择 使 用 何 种 TCP 拥塞 控制 算法 。 该 选项 (除了 Windows Server 2008 外 ， 默 认 不 开 
JA) 称 为 复合 TCP (Compound TCP, CTCP) [TSZS06]。CTCP 不 仅 依据 丢 包 来 进行 窗口 的 
调整 ， 还 依据 延迟 的 大 小 。 可 以 认为 它 是 一 种 标准 TCP 和 Vegas 算法 的 结合 ， 而 且 还 包含 了 
HSTCP 可 扩展 的 特点 。 
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Vegas 算法 和 FAST 算法 的 研究 结果 显示 ， 基 于 延迟 的 拥塞 控制 方法 可 以 得 到 更 好 的 利 
用 率 、 更 少 的 自 诱 导 的 丢 包 率 、 更 快 的 收敛 性 (对 于 正确 的 操作 来 说 )， 并 且 使 RTT 更 具 公 
平 性 和 稳定 性 。 然 而 ， 就 像 前 面 提 到 过 的 ， 基 于 延迟 的 方法 在 与 基于 丢 包 的 拥塞 控制 方法 竞 
争 时 会 失去 优势 。CTCP 就 是 希望 通过 将 基于 延迟 的 方法 和 基于 丢 包 的 方法 相 结合 来 解决 该 
问题 。 为 了 达到 这 一 目的 ，CTCP 定义 了 一 个 新 的 窗口 控制 变量 dwnd(“ 延 迟 窗口 ”")。 可 用 
窗口 大 小 W WERT 

W = min (cwnd + dwnd, awnd) 

对 cwnd 值 的 处 理 与 标准 TCP 类 似 ， 但 是 如 果 延 迟 人 允许 ， 新 加 入 的 dwnd 值 会 允许 额外 

的 数据 包 发 送 。 在 拥塞 避免 阶段 当 ACK 报 文 到 达 时 ，cwnd 值 根据 下 面 的 公式 进行 更 新 : 
cwnd = cwnd + 1/ (cwnd + dwnd) 

dwnd 值 的 控制 是 基于 Vegas 算法 的 ， 并 且 只 在 拥塞 避免 阶段 才 是 非 零 值 (CTCP 使 用 传 
统 的 慢 启动 方式 )。 当 连接 建立 时 ， 使 用 一 个 变量 baseRTT 来 表示 测量 到 的 最 小 RTT 值 。 然 
后 预期 数据 与 实际 数据 的 差 值 di 任 将 使 用 如 下 公式 进行 计算 : diff = W * (1 - (baseRTT/RTT) 
其 中 RTT 是 估算 的 (平滑 的 ) RIT 估计 。diff 的 值 估 算 了 网 络 队列 中 的 数据 包 数 量 (或 字 
数 )。 与 大 多 数 基 于 延迟 的 方法 类 似 ，CTCP 算法 试图 将 di 企 值 保持 在 一 个 羡 值 内 ， bua 
Pre 26 BY FE So A FS aD AS BF ts SE, SE Ay. A HA BIIA— AM, XF dwnd 值 
的 控制 可 依据 以 下 公式 : 


dwnd (ft) + (a * win(ġ*-1)* (diff < y) 
dwnd eri amna (t) - ¢* diff) (diff > y) 
(win (£) * (1-8) - cwnd/2)* (检测 到 丢 包 ) 


其 中 (x) 表示 max (x, 0)。 注 意 这 里 dwnd 值 非 负 。 而 当 CTCP 像 标 准 TCP 那样 工作 的 时 候 ， 
dwnd 值 应 为 0。 

在 第 一 种 情况 下 ， 网 络 没 有 被 充分 利用 ，CTCP 根据 多 项 式 wx* wint K dwnd 
值 。 这 是 一 种 多 项 式 级 的 增长 ， 而 当 缓 冲 区 的 占用 率 小 于 y 时 ,会 更 快速 地 增长 (类似 于 
HSTCP)。 在 第 二 种 情况 下 ， 缓 冲 区 的 占用 率 已 经 超过 了 闪 值 >， 固 定 值 “ 表 示 延 迟 窗口 的 递 
减速 率 (dwnd 经 常 为 cwnd 的 加 数 )。 这 就 使 得 CTCP 的 RTT 更 具 公 平 性 。 当 检测 到 丢 包 时 ， 
dwnd 值 会 有 自己 的 积 式 递减 系数 p。 

可 以 看 到 ，CTCP 需要 使 用 参数 k、a、pB、y 和 ¢。 的 值 表示 速度 的 等 级 。 与 HSTCP 类 
似 ， 可 以 将 k 值 设置 为 0.8， 但 是 由 于 实现 方面 的 原因 , k 值 被 设置 为 0.75。a A ERR T 
平滑 度 和 响应 性 ， 分 别 被 默认 设置 为 0.125 和 0.5。 对 于 ” 值 ， 这 里 凭借 经 验 将 其 设置 为 30 
个 数据 包 。 如 果 这 个 值 太 小 ， 将 不 会 有 足够 的 数据 包 ， 以 致 不 能 得 到 较 容 易 测量 的 延迟 。 相 
反 ， 如 果 这 个 值 太 大 则 会 导致 长 时 间 的 拥塞 。 

CTCP 算法 相对 比较 新 ， 通 过 更 深入 的 实验 和 改进 ， 会 使 其 与 标准 TCP 相 比 拥有 更 好 的 
性 能 ， 并 且 能 够 很 好 地 适应 不 同 的 带宽 。 在 一 个 仿真 实验 中 ，[W08] 注意 到 在 网 络 缓冲 区 较 
小 时 (小 于 y 值 )，CTCP 算法 的 性 能 会 很 差 。 他 们 还 提出 CTCP 也 存在 着 一 些 Vegas 算法 中 
的 问题 ， 包 括 重新 路 由 问题 (适应 具有 不 同 延 迟 的 新 链 路 ) 和 持续 的 拥塞 问题 。 他 们 发 现 ， 
如 果 有 很 多 的 CTCP 流 ， 甚 中 每 一 个 都 要 维护 个 数据 包 ， 并 且 共 用 一 条 相同 瓶颈 的 链 路 
时 ，CTCP 的 性 能 会 非常 差 。 l 

像 前 面 所 提 到 的 ，CTCP 在 大 多 数 版 本 的 Windows 系统 中 不 是 默认 开启 的 。 然 而 ， 下 面 
的 命令 可 以 用 来 选择 CTCP 作为 拥塞 控制 方法 。 
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C:\> netsh interface tcp set global congestionprovider=ctcp 


它 可 以 通过 另 选 一 个 不 同 的 (或 不 设置 ) 控制 算法 来 关闭 。CTCP 也 作为 一 个 可 装卸 式 
的 拥塞 避免 模块 而 移植 到 Linux 系统 中 ， 当 然 它 也 不 是 默认 启用 的 。 


16.10 缓冲 区 膨胀 

_ 虽然 存储 单元 的 价格 昂贵 (高 端 路 由 器 也 是 如 此 ), 但 是 现在 的 网 络 设备 中 仍 包含 大 量 
的 钓 存 和 几 百 万 字 节 的 包 缓冲 区 。 然 而 ， 这 样 庞大 的 内 存 (与 传统 的 网 络 设备 相 比 ) 会 导致 
像 TCP 这 样 的 协议 性 能 下 降 。 这 一 问题 被 称 为 缓冲 区 膨胀 [G11] [DHGS07]。 它 主要 存在 于 
家 用 网 关 的 上 行 端 以 及 家 庭 或 小 型 办 公 室 的 接 人 点 处 ， 与 排队 等 待 而 产生 的 大 量 延 迟 有 关 。 
标准 TCP 协议 的 拥塞 控制 算法 会 在 链 路 的 瓶颈 处 将 缓冲 区 填 满 。 而 由 于 拥塞 的 信号 (一 个 数 
据 包 丢失 ) 需 经 很 长 时 间 才 能 反馈 到 发 送 端 ， 此 时 在 发 送 端 和 接收 端 之 间 缓 存 了 大 量 数据 ， 
TCP 协议 也 不 能 很 好 地 运作 。 

[KWNP10] 中 指出 ， 在 美国 包括 电缆 和 DSL 在 内 ， 上 传 带宽 范围 是 256Kb/s ~ 4Mb/s, 

在 商用 路 由 器 上 的 缓冲 区 大 小 应 该 在 16KB 至 256KB 之 间 。 图 16-21 显示 了 在 几 种 缓冲 区 大 
小 下 延迟 和 数据 传输 速率 的 关系 ， 可 以 证 明之 前 结论 的 正确 性 。 
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100 1000 10000 
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图 16-21 双 对 数 坐 标 系 显示 了 队列 等 待 的 延迟 随 拥 塞 队 列 长 度 的 变化 情况 。 当 缓冲 区 被 占 满 时 (“ 组 
冲 区 膨胀 ” )， 交 互 式 的 应 用 程序 将 会 产生 无 法 容忍 的 延迟 


图 16-21 展示 了 针对 不 同 缓冲 区 大 小 (1KB ~ 2MB) 数据 在 队列 等 待 所 产生 的 延迟 情 
况 。 如 果 缓 冲 区 大 小 为 几 百 KB 或 者 更 多 ， 那 么 家 庭 网 络 上 传 带宽 速率 (一 般 在 250Kb/s 至 
10Mb/s 之 间 ) 会 引起 几 百 秒 的 延迟 。 为 了 给 用 户 带 来 更 好 的 体验 ， 一 般 的 交互 式 应 用 程序 需 
要 把 单 向 延迟 控制 在 150ms 以 下 [G114]。 因 此 ， 如 果 缓 冲 区 被 一 个 或 多 个 大 的 上 传 文件 所 
占 满 (如 BT 共享 文件 )， 会 严重 影响 交互 式 应 用 性 能 。 

不 是 所 有 的 网 络 设备 中 都 存在 缓冲 区 膨胀 的 问题 。 实 际 上 ， 主 要 问题 是 缓冲 区 端 用 户 接 
入 设备 过 满 。 有 很 多 方法 可 以 解决 这 一 问题 ， 包 括 修 改 协议 (如 像 Vegas 这 样 的 基于 延迟 的 
拥塞 控制 方式 ， 但 是 它 可 能 会 因为 网 络 抖动 而 产生 相反 效果 [DHGS07])、 使 用 缓冲 区 大 小 可 
动态 改变 的 接 入 设备 ( [KWNP10] 中 提 到 )， 或 将 两 者 结合 。 接 下 来 介绍 一 种 综合 的 方法 ， 它 
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不 仅 可 以 解决 缓冲 区 膨胀 的 问题 ， 而 且 还 有 一 些 其 他 的 好 处 。 


16.11 积极 队列 管理 和 ECN 


到 现在 为 止 ，TCP 能 够 推断 出 拥塞 产生 的 唯一 方法 就 是 发 生 丢 包 现象 。 特 别 是 路 由 器 
(最 有 可 能 产生 拥塞 ) 通常 不 会 通知 连接 两 端的 主机 ，TCP 即将 产生 拥塞 。 而 是 当 缓存 没有 
多 余 的 可 用 空间 时 ， 只 好 将 新 到 达 的 数据 包 丢 弃 ( 称 为 “尾部 丢弃 ”" )。 然 后 依照 先进 先 出 
(FIFO) 的 方法 继续 转发 那些 先前 到 达 的 数据 包 。 当 网 络 路 由 器 像 这 样 被 动工 作 时 ( 指 它 们 
在 超 负荷 的 时 候 仅仅 丢弃 数据 包 ， 而 不 会 提供 它们 已 经 处 于 拥塞 状态 的 任何 反馈 信息 )，TCP 
除了 事后 再 做 出 反应 以 外 无 能 为 力 。 然 而 ， 如 果 路 由 器 可 以 更 积极 地 管理 它们 的 等 待 队列 
(也 就 是 说 使 用 更 精确 复杂 的 调度 算法 和 缓存 管理 策略 )， 也 许 这 种 情况 就 能 得 到 改善 。 若 可 
以 将 拥塞 状态 报告 给 端 节点 ， 效 果 会 更 好 。 

应 用 FIFO 和 尾部 丢弃 以 外 的 调度 算法 和 缓存 管理 策略 被 认为 是 积极 的 ， 路 由 器 用 来 管 
理 队 列 的 相应 方法 称 为 积极 队列 管理 (AQM) 机 制 。[RFC2309] 中 提 到 了 AQM 机 制 的 潜在 
优势 。 若 可 以 通过 将 路 由 器 和 交换 机 的 状态 传输 给 端 系统 来 实现 AQM 时 ， 它 将 更 具 利用 价 
值 。 这 些 在 [RFC3168] 中 有 详细 描述 ，[RFC3540] 利用 相关 实验 描述 了 扩展 安全 性 的 AQM。 
这 些 REC 都 描述 了 显 式 拥塞 通知 (Explicit Congestion Notification，ECN )， 它 对 经 过 路 由 器 
的 数据 包 进 行 标记 (设置 IP 头 中 的 两 个 ECN 标志 位 )， 以 此 得 到 拥塞 状况 。 

随机 早期 检测 (RED) 网 关 [FJ93] 机 制 能 够 探测 拥塞 情况 的 发 生 ， 并 且 控 制 数据 包 标 
记 。 这 些 网 关 实 现 了 一 种 衡量 平均 占用 时 间 的 队列 管理 方法 。 如 果 占 用 队列 的 时 间 超 过 最 小 
值 (minthresh)， 并 且 小 于 最 大 值 (maxthresh)， 那 么 这 个 数据 包 将 被 标记 上 一 个 不 断 增 长 的 
概率 值 。 如 果 平 均 队列 占用 时 间 超 过 了 maxthresh， 数 据 包 将 被 标记 一 个 可 配置 的 最 大 的 概 
率 值 (MaxP), MaxP 可 以 设置 为 1.0。RED 也 可 以 将 数据 包 丢弃 而 不 是 标记 它们 。 


注意 RED 算法 有 多 种 版 本 (如 思科 的 WRED 就 是 基于 IP DSCP 和 优先 级 的 RED 
算法 )， 很 多 路 由 器 和 交换 机 都 支持 。 


当 数 据 包 被 接收 时 ， 其 中 的 拥塞 标记 表明 这 个 包 经 过 了 一 个 拥塞 的 路 由 器 。 当 然 ， 发 送 
端 (而 不 是 接收 端 ) 才 真正 需要 这 些 信息 ， 以 此 降低 发 送 速率 。 因 此 ， 接 收 端 通过 向 发 送 端 
返回 一 个 ACK 数据 包 来 通知 拥塞 状况 。 

ECN 机 制 主要 在 IP 层 进行 操作 ， 也 可 以 应 用 于 TCP 协议 之 外 的 其 他 传输 层 协议 。 当 一 
个 包含 ECN 功能 的 路 由 器 经 过 长 时 间 的 拥塞 ， 接 收 到 一 个 卫 数据 包 后 ， 它 会 查看 IP 头 中 的 
ECN 传输 能 力 (ECT) 标识 (在 IP 头 中 由 两 位 ECN 标志 位 定义 )。 如 果 有 效 ， 负 责 发 送 数据 
包 的 传输 层 协 议 将 开启 ECN 功能 ， 此 时 ， 路 由 器 会 在 IP 头 设置 一 个 已 发 生 拥塞 ( CE) 标识 
(将 ECN 位 都 置 为 1 )， 然 后 继续 向 下 转发 数据 报 。 若 拥塞 情况 不 会 持续 很 长 时 间 (例如 由 于 
队列 溢出 导致 最 新 的 一 个 数据 包 被 丢弃 )， 路 由 器 不 会 将 CE 标识 置 位 。 因 为 即使 是 一 个 单独 
的 CE 标识 ,传输 协议 也 会 做 出 反应 。 

如 果 TCP 接收 端 发 现 接 收 到 的 数据 包 的 CE 标识 被 置 位 ， 那 么 它 必须 将 该 标识 发 送 回 发 
送 端 ( [RFC5562] 中 的 实验 表明 ， 也 可 以 将 ECN 添加 到 SYN + ACK 报 文 段 中 发 送 )。 因 为 
接收 端 经 常会 通过 ACK 数据 包 (不 可 靠 的 ) 向 发 送 端 返回 信息 ， 所 以 拥塞 标识 很 有 可 能 会 丢 
失 。 出 于 对 这 种 情况 的 考虑 ，TCP 实现 了 一 个 小 型 的 可 靠 连接 协议 ， 通 过 这 个 协议 可 以 将 标 
识 返 回 给 发 送 端 。TCP 接收 端 接收 到 CE 标识 被 置 位 的 数据 包 之 后 ， 它 会 将 每 一 个 ACK 数 


TCP HHH 557 


据 包 的 “ECN 回 显 ”( ECN-Echo) 位 字段 置 位 ， 直 到 接收 到 一 个 从 发 送 端 发 来 的 CWR 位 字 
段 设置 为 1 的 数据 包 。CWR 位 字段 被 置 位 说 明 拥 塞 窗口 (也 就 是 发 送 速 率 ) 已 经 降低 。 


注意 RED 机 制 和 ECN 机 制 至 今 已 有 将 近 20 年 ， 它 们 仍 无 法 满足 广泛 应 用 的 网 
络 调度 。 多 种 原因 造成 了 此 种 现状 (例如 ，RED 参数 难以 设置 ,而 且 能 起 的 作用 也 
有 限 )。2005 年 ， 对 于 ECN 的 “复查 ”[K05] 指出 ， 只 在 数据 包 中 应 用 ECN 机 制 

p 大 幅 限 制 了 它 的 作用 。[RFC5562] 中 的 一 个 实验 表明 ， 在 一 定 负 载 下 (例如 Web it 
È), 将 ECN 放置 在 SYN +ACK 数据 包 中 传输 可 以 提高 ECN 的 实用 性 。 


TCP 发 送 端 接收 到 含有 ECN-Echo 标识 的 ACK 数据 包 时 ， 会 与 探测 到 单个 数据 包 丢 失 
时 一 样 调整 ewnd 值 。 同 时 发 送 端 还 会 重新 设置 后 续 数据 包 的 CWR 位 字段 。 常 规 的 拥塞 处 
理 方式 为 : 调用 快速 重 传 和 快速 恢复 算法 (当然 ， 数 据 包 不 会 进行 重 传 )， 这 样 就 可 以 使 TCP 
在 丢 包 之 前 降低 发 送 速率 。 值 得 注意 的 是 ，TCP 的 处 理 不 应 该 过 度 。 特 别 是 它 不 能 对 同一 个 
数据 进行 多 次 响应 。 否 则 ，ECN TCP 相对 于 其 他 来 说 会 处 于 不 利 地 位 。 

在 Windows Vista 及 之 后 的 版 本 中 ， 激 活 ECN 功能 需要 使 用 以 下 命令 : 


C:\> netsh int tcp set global ecncapability=enabled 


在 Linux 系统 中 ， 如 果 布 尔 型 Sysctl 变量 net.ipv4.tcp_ecn 的 值 非 零 ， 则 ECN 功能 被 激 
活 。 这 种 基于 Linux 的 改变 默认 设置 的 方法 正在 广泛 使 用 。 在 Mac OS 10.5 及 更 新 的 版 本 中 ， 
变量 net.inet.tcp.ecn_initiate_out 和 net.inet.tcp.ecn_negotiate_in 分 别 控制 向 外 传输 和 向 内 传 
输 的 ECN 功能 的 开启 。 当 然 ， 没 有 路 由 器 和 交换 机 的 协作 ，ECN 的 实用 性 在 任何 情况 下 都 
会 受到 限制 。AQM 在 整个 全 球 互联 网 络 中 发 挥 作 用 还 需要 时 间 。 


注意 由 于 设计 目的 不 同 ，RED 机 制 和 ECN 机 制 被 用 于 完全 不 同 的 操作 环境 。 
Microsoft 和 Stanford 开发 了 Data Center TCP (DCTCP) [A10]。 它 使 用 了 更 简化 的 
参数 ， 在 第 2 层 交 换 机 上 实现 了 RED 机制 ， 可 以 在 网 络 产生 瞬时 的 拥塞 时 对 数据 包 
进行 标记 。 它 们 还 调整 了 TCP 接收 端的 行为 ， 只 有 在 最 后 一 个 接收 到 的 数据 包 包 含 
CE 标记 时 ， 才 将 ACK 中 的 ECN-Echo 标记 置 位 。 报 告 显示 达到 相同 的 TCP 吞吐 量 
情况 下 ， 缓 冲 区 的 占用 率 下 降 了 90%， 并 使 背景 流量 增长 10 倍 。 


16.12 与 TCP 拥塞 控制 相关 的 攻击 


我 们 已 经 看 到 生成 数据 包 是 如 何 攻击 TCP， 使 其 改变 自身 的 连接 状态 机 ， 从 而 断 开 连接 
的 。 当 TCP 处 于 ESTABLISHED 状态 时 ， 它 也 会 受到 攻击 (至少 为 非 正 常 工作 状态 )。 大 多 
数 针对 TCP 拥塞 控制 的 攻击 都 是 试图 强迫 TCP 发 送 速 度 比 一 般 情 况 更 快 或 者 更 慢 。 

更 早期 的 攻击 方式 是 利用 ICMPv4 Source Quench ( 源 抑制 ) 报 文 的 结构 。 当 这 些 报 文 被 
发 送 到 运行 TCP 协议 的 主机 上 时 ,任何 与 该 IP 地 址 相连 的 连接 都 会 减 慢 发 送 速率 。 该 全 地 
址 包含 在 ICMP 报 文中 的 违规 数据 报 中 。 然 而 随 着 1995 年 路 由 器 不 再 使 用 Source Quench 报 
文 进行 拥塞 控制 ( [RFC1812]5.3.6 节 )， 这 种 攻击 方式 也 变 得 不 可 行 了 。 另 一 方面 ， 对 于 终端 
主机 ，[RFC1122] 规定 TCP 针对 Source Quench 报 文 必须 降低 速率 。 综 合 以 上 两 点 ， 解 决 这 
种 攻击 最 简单 的 方法 就 是 在 路 由 器 和 主机 上 阻止 ICMP Source Quench 报 文 的 传输 。 这 种 方 
式 已 得 到 普遍 使 用 。 
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一 种 更 复杂 、 更 常用 的 攻击 方式 是 基于 接收 端的 不 当 行 为 [SCWA99]。 这 里 将 描述 三 种 
攻击 形式 ， 它 们 都 可 以 使 TCP 发 送 端 以 一 个 比 正常 状态 更 快 的 速率 进行 数据 发 送 。 这 些 攻 
击 可 用 于 使 某 个 Web 客户 端 得 到 比 其 他 客户 端 更 高 的 优先 权 ， 分 别 为 ACK 分 割 攻击 、 重 
复 ACK 欺骗 攻击 、 乐 观 响应 攻击 ， 还 有 一 种 在 TCP 中 实现 的 变 体 ， 这 里 把 它 称 为 “TCP 
Daytona” 。 

ACK 分 割 攻 击 的 原理 是 ， 将 原 有 的 确认 字 节 范围 拆 分 成 多 个 ACK 信号 并 返回 给 发 送 
Wo HT TOP 拥塞 控制 是 基于 ACK 数据 包 的 到 达 进 行 操作 的 (而 不 是 依据 ACK 信号 中 的 
ACK 字段 )。 这 样 发 送 端的 cwnd 会 比 正常 情况 更 快速 地 增长 。 要 解决 这 一 问题 ， 与 ABC( 适 
当 字 节 数 ) 类 似 ， 可 通过 计算 每 个 ACK 能 确认 的 数据 量 (而 不 是 一 个 数据 包 的 到 达 ) 来 判断 
是 否 为 真 的 ACK。 

重复 ACK 欺骗 攻击 可 以 使 发 送 端 在 快速 恢复 阶段 增长 它 的 拥塞 窗口 。 回 想 之 前 讨论 过 
的 ， 在 标准 快速 恢复 模式 中 ， 每 次 接收 到 重复 ACK cwnd 都 会 增长 。 这 种 攻击 会 比 正 常情 况 
更 快 地 生成 多 余 的 重复 ACK。 因 为 还 没有 一 种 明确 的 方法 可 以 将 接收 到 的 重复 ACK 和 它们 
所 确认 的 报 文 段 相对 应 (一 个 基于 时 间 的 伪 随 机 数 可 以 解决 这 一 问题 ， 我 们 将 在 第 18 章 详 
细 讨 论 )， 因 此 这 种 攻击 更 加 难以 防治 。 利 用 时 间 戳 选项 可 以 解决 这 一 问题 ， 可 以 设置 该 选 
项 在 每 个 连接 中 开启 或 关闭 。 然 而 解决 这 一 问题 的 最 好 方法 是 ， 限 制 发 送 端 在 恢复 阶段 的 在 
外 数据 值 。 

乐观 响应 攻击 原理 是 对 那些 还 没有 到 达 的 报 文 段 产 生 ACK。 因 为 TCP 的 拥塞 控制 计算 
是 基于 端 到 端的 RTT 的 。 对 那些 还 没有 到 达 的 数据 提前 进行 确认 就 会 导致 发 送 端 计算 出 的 
RTT 比 实际 值 要 小 ， 所 以 发 送 端 将 会 比 正常 情况 下 更 快 地 做 出 反应 。 但 如 果 发 送 端 接收 到 了 
一 个 未 发 送 数据 的 ACK， 通 常会 选择 忽略 该 响应 。 与 其 他 攻击 方式 不 同 ， 这 种 方法 不 能 在 
TCP 层 保证 数据 的 可 靠 传输 (也 就 是 说 ， 已 经 被 确认 的 数据 可 能 会 丢失 )。 丢 失 的 数据 会 被 
应 用 层 或 者 会 话 层 协议 重建 ， 这 是 很 常见 的 〈 例 如 在 HTTP/1.1 中 )。 为 防范 这 类 攻击 ， 可 定 
义 一 个 可 累加 的 随机 数 ， 使 得 发 送 数据 段 大 小 可 随时 间 动 态 改变 ， 以 此 来 更 好 地 匹配 数据 段 
和 它 对 应 的 ACEK。 当 发 现 得 到 的 ACK 和 数据 段 不 匹配 时 ， 发 送 端 就 可 以 采取 相应 的 行动 。 

接收 端 异 常 行为 的 问题 也 受到 了 一 些 研究 ECN 的 专家 的 关注 ， 回 想 一 下 使 用 ECN 的 
AQM 机 制 ，TCP 接收 端 会 在 ACK 消息 中 向 发 送 端 返回 一 个 ECN 标识 。 然 后 发 送 端 据 此 将 
会 降低 它 的 发 送 速率 。 如 果 接 收 端 不 能 向 发 送 端 返回 ECN 标识 (或 者 网 络 中 的 路 由 器 将 这 一 
标识 清除 )， 那 么 发 送 端 将 不 会 知道 是 否 产生 拥塞 ， 也 就 不 会 降低 发 送 速率 。[RFC3540] 进行 
了 相关 实验 ， 即 将 一 个 IP 数据 包 中 的 ECN 字段 (2 比特 ) 中 的 ECT 位 字段 设置 为 随机 数 。 
发 送 方 将 该 字段 值 设置 为 一 个 随机 的 二 进 制 数 ， 接 收 方 将 该 字段 的 值 加 1 (一 个 异 或 操作 )。 
当 生 成 ACK 响应 时 ， 接 收 端 会 把 该 值 放 置 到 TCP 头 部 的 第 7 位 (一 般 保留 为 0 )。 行 为 异常 
的 接收 端 有 一 半 的 概率 可 以 猜 到 这 一 数值 。 因 为 每 一 个 数据 包 都 是 相对 独立 的 ， 所 以 一 个 行 
为 异常 的 接收 端 必须 猜 对 每 一 个 ECT 值 ， 这 样 对 于 磊 个 数据 包 来 说 全 部 猜 对 的 概率 只 有 1/2 
(对 于 任何 一 个 长 时 间 使 用 的 连接 这 都 是 很 微小 的 )。 


16.13 总结 


TCP 被 设计 为 互联 网 中 主要 的 可 靠 传输 协议 。 虽 然 其 最 初 的 设计 包含 了 流量 控制 功能 ， 
能 够 在 接收 方 无 法 跟 上 时 降低 发 送 方 的 速度 ,但 是 最 初 并 没有 提供 方法 从 防止 发 送 方 淹没 双 
方 之 间 的 网 络 。 在 20 世纪 80 年 代 末期 为 了 控制 发 送 方 的 攻击 性 行为 ，TCP 开发 了 慢 启动 
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与 拥塞 避免 算法 ， 从 而 避免 了 因 网 络 拥塞 而 造成 的 丢 包 问题 。 这 些 算法 都 依赖 于 使 用 一 个 隐 
含 的 信号 、 数 据 包 丢失 以 及 拥塞 的 指示 。 当 检测 到 丢 包 时 就 会 触发 这 些 算 法 ， 无 论 是 通过 快 
速 重 传 算法 还 是 超时 重 传 。 

慢 启动 与 拥塞 避免 通过 在 发 送 方 设 置 一 个 拥塞 窗口 来 实现 对 其 操作 的 控制 。 该 拥塞 窗口 
将 与 传统 的 窗口 一 起 使 用 (基于 接收 方 提供 的 窗口 广告 )。 一 个 标准 的 TCP 会 将 其 窗口 的 最 
小 值 限定 为 2。 随 着 时 间 的 增长 ， 慢 启动 要 求 拥塞 窗口 的 数值 指数 地 增加 ， 而 拥塞 避免 则 会 
隔 着 时 间 的 推移 而 线性 增长 。 在 任何 时 刻 都 只 能 选择 两 种 算法 中 的 一 种 运行 ， 而 做 出 这 一 选 
择 则 需要 比较 拥塞 窗口 当前 的 数值 与 慢 启动 的 国 值 。 如 果 拥 塞 窗 口 超过 了 靖 值 ， 那 么 采用 拥 
塞 避免 ; 否则 使 用 慢 启动 。 慢 启动 起 初 只 在 建立 TCP 连接 以 及 因 超 时 而 重新 启动 后 使 用 。 它 
也 适用 于 连接 长 时 间 处 于 空闲 状态 的 情况 。 在 整个 连接 的 过 程 中 ， 慢 启动 的 装 值 会 动态 地 进 
行 调整 。 

多 年 来 ， 拥 塞 控制 已 经 成 为 网 络 研究 界 关 注 的 重要 焦点 之 一 。 在 通过 TCP 与 它 的 慢 启 
动 、 拥 塞 避 免 过 程 获得 经 验 后 ， 一 些 改进 方法 被 提出 、 执 行 以 及 标准 化 。 通 过 跟踪 TCP faf 
时 从 一 系列 丢 包 中 恢复 ，NewReno (TCP 的 一 个 改进 版 本 ) 能 够 避免 当 多 个 数据 包 在 同一 个 
窗口 中 被 丢弃 时 伴随 Reno 变异 发 生 的 停滞 现象 。SACK TCP 通过 允许 发 送 者 在 一 个 RTT 中 
智能 地 修复 多 个 数据 包 改 善 NewReno 的 性 能 。 在 使 用 SACK TCP 时 ， 需 要 仔细 地 核算 ， 以 
确保 发 送 者 在 与 共享 同一 个 互联 网 路 径 的 其 他 TCP 通信 方 比较 时 不 会 显得 过 分 积极 。 

近期 ， 关 于 TCP 拥塞 管理 的 一 些 修改 包括 : 速率 减 半 、 拥 塞 窗口 的 验证 与 调制 ， 以 及 
“撤销 ”过 程 。 速 率 减 半 算 法 能 够 在 检测 出 丢 包 后 使 拥塞 窗口 逐步 而 不 是 快速 地 减 小 。 拥 塞 
窗口 验证 尝试 在 发 送 应 用 程序 空闲 或 不 能 发 送 的 情况 下 确保 拥塞 窗口 不 会 过 大 ; 拥塞 窗口 调 
制 限制 了 在 接收 到 单一 ACK 后 作为 响应 的 突 发 传输 的 大 小 。“ 撤 销 ” 过 程 ， 例 如 Eifel 响应 
算法 ， 在 数据 包 丢 失信 号 被 认为 是 虚假 以 及 使 用 若干 技术 进行 条 件 检测 时 撤销 对 拥塞 窗口 的 
修改 。 在 上 述 情况 下 ， 为 了 将 减 小 拥塞 窗口 所 带 来 的 负面 影响 降 至 最 低 ， 恢 复 拥塞 状态 至 其 
对 应 条 件 优 于 减 小 拥塞 窗口 。 

经 过 TCP 有 意义 的 实践 ， 发 现 拥 塞 避免 过 程 需要 花费 相当 长 的 一 段 时 间 才 能 找到 并 利 
用 额外 的 可 用 带宽 资源 。 因 此 ， 大 量 关 于 “带宽 可 扩展 ”的 建议 成 为 TCP 修改 的 方向 。 一 
个 较为 知名 的 版 本 (在 IETF 中 ) 是 HSTCP。 相 比 于 传统 的 TCP 而 言 ， 它 允许 拥塞 窗口 在 大 
数值 上 且 少 有 数据 包 丢 失 的 情况 下 更 加 积极 地 增长 。 此 外 ， 还 有 一 些 建议 ， 如 FAST 和 CTCP, 
它们 的 窗口 增长 过 程 都 是 基于 数据 包 丢 失 与 延迟 的 测量 。 在 Linux 系统 上 广泛 部 署 的 BIC- 
TCP 与 CUBIC 算法 使 用 了 增长 函数 。 该 函数 在 某 些 区 间 呈 同形， 而 在 男 一 些 区 间 则 呈 四 形 。 
这 样 就 能 够 支持 在 饱和 点 的 小 窗口 变化 ， 从 而 可 能 以 对 新 的 可 用 带宽 的 迟缓 响应 (但 仍 快 于 
标准 的 TCP) 为 代价 来 增强 稳定 性 。 

随 着 显 式 拥 塞 通知 (ECN) 规范 的 提出 ，TCP 与 互联 网 路 由 器 的 运营 做 出 了 一 个 重大 
改变 ， 即 在 出 现 丢 包 之 前 允许 TCP 检测 是 否 开始 发 生 拥 塞 。 虽 然 模拟 与 研究 的 结果 表明 它 
是 可 取 的 ， 但 它 需 要 适度 地 调整 TCP 的 实现 ， 并 使 互联 网 路 由 器 的 操作 方式 发 生 重要 改变 。 
这 种 能 力 将 部 署 到 何 种 程度 还 有 待 观察 。 

虽然 TCP 提供 了 最 广泛 使 用 的 互联 网 可 靠 数据 传输 方法 ， 但 是 它 并 没有 以 自身 的 安全 
方式 实现 。 一 般 来 说 ， 它 非常 容易 受到 伪造 数据 包 攻 击 ， 从 而 导致 连接 中 断 ; 攻击 者 只 需要 
猜 出 一 个 可 行 的 (窗口 ) 序列 号 就 能 够 发 起 上 述 攻击 。 此 外 ， 没 有 任何 完全 可 行 的 方法 能 够 
阻止 一 个 过 分 积极 的 发 送 者 仅仅 违反 所 有 的 拥塞 控制 规则 。 
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将 所 有 为 TCP 而 开发 的 算法 和 技术 都 结合 到 一 个 TCP 实现 中 并 非 易 事 ( Linux 2.6.38 的 
TCP/IPv4 KAA 20 000 ff C 语言 代码 )， 而 分 析 真 实 世 界 中 TCP 活动 的 记录 需要 耗费 时 间 。 
诸如 tcpdump, Wireshark 以 及 tcptrace 这 样 的 工具 使 这 项 工作 变 得 相对 容易 。 由 于 动态 地 适 
应 网 络 性 能 ， 使 用 基于 时 间 序 列 图 的 可 视 化 技术 能 够 更 容易 理解 TCP 的 行为 ， 例 如 本 章 所 
采用 的 例子 。 


16.14 参考 文献 


[A10] M. Alizadeh et al., “Data Center TCP (DCTCP),” Proc. ACM SIGCOMM, 
Aug./Sept. 2010. 


[ASA00] A. Aggarwal, S. Savage, and T. Anderson, “Understanding the Perfor- 
mance of TCP Pacing,” Proc. INFOCOM, Mar. 2004. 


[BP95] L. Brakmo and L. Peterson, “TCP Vegas: End to End Congestion Avoid- 
ance on a Global Internet,” IEEE JSAC, 13(8), Oct. 1995. 


[DHGS07] M. Dischinger, A. Haeberlen, K. Gummadi, and S. Saroiu, “Character- 
izing Residential Broadband Networks,” Proc. ACM IMC, Oct. 2007. 


[F91] S. Floyd, “Connections with Multiple Congested Gateways in Packet- 
Switched Networks, Part 1: One-Way Traffic,” ACM Computer Communication 
Review, 21, 1991. 


[FF96] S. Floyd and K. Fall, “Simulation-Based Comparisons of Tahoe, Reno, and 
SACK TCP,” ACM Computer Communications Review, July 1996. 


[FHPW00] S. Floyd, M. Handley, J. Padhye, and J. Widmer, “Equation-Based Con- 
gestion Control for Unicast Applications,” Proc. ACM SIGCOMM, Aug. 2000. 


[FJ93] S. Floyd and V. Jacobson, “Random Early Detection Gateways for Conges- 
tion Avoidance,” IEEE/ACM Transactions on Networking, 1(4), Aug. 1993. 


[G11] J. Gettys, “Bufferbloat: Dark Buffers in the Internet,” Internet Computing, 
May/June 2011. 


[G114] International Telecommunication Union Recommendation G.114, “One- 
Way Transmission Time,” May 2003. 


[H96] J. Hoe, “Improving the Start-up Behavior of a Congestion Control Scheme 
for TCP,” Proc. ACM SIGCOMM, Aug. 1996. 


[HRX08] S. Ha, I. Rhee, and L. Xu, “CUBIC: A New TCP-Friendly High-Speed 
TCP Variant,” http://netsrv.csc.ncsu.edu/export/cubic_a_new_tcp_2008.pdf 


[J88] V. Jacobson, “Congestion Avoidance and Control,” Proc. ACM SIGCOMM, 
Aug. 1988. This paper was later updated in 1992 to include M. Karels as coauthor. 
The update is available at http://www-nrg.ee.lbl.gov/papers/congavoid.pdf 


[J90] V. Jacobson, “Modified TCP Congestion Avoidance Algorithm,” posting 
to the end2end-interest group mailing list, Apr. 1990, available at 
ftp://ftp.ee.lbl.gov/email/vanj.90apr30.txt 


[K05] A. Kuzmanovic, “The Power of Explicit Congestion Notification,” Proc. 
ACM SIGCOMM, Aug. 2005. 


[KWNP10] C. Kreibich, N. Weaver, B. Nechaev, and V. Paxson, “Netalyzr: Illu- 
minating Edge Network Neutrality, Security and Performance,” Proc. ACM IMC, 
Nov. 2010. 


[LARTC] http://lartc.org 
[M92] J. Mogul, “Observing TCP Dynamics in Real Networks,” Proc. ACM SIG- 


TCP HRIH 561 


COMM, Aug. 1992. 
[MMO5] M. Mathis, personal communication, Sept. 2005. 


[MM96] M. Mathis and J. Mahdavi, “Forward Acknowledgment: Refining TCP 
Congestion Control,” Proc. ACM SIGCOMM, Aug. 1996. 


[NB08] J. Nievelt and V. Bhanu, “Developing TCP Chimney Drivers for Windows 
7,” presentation at Microsoft Windows Drivers Developer Conference, 2008. 


[NS2] http://www.isi.edu/nsnam/ns (also see NS3 at http://www.nsnam.org) 
[P07] http://lwn.net/Articles/128681 


[PSCRH] M. Mathis, J. Mahdavi, and J. Semke, “TCP Rate Halving,” 
http://www.psc.edu/networking/projects/rate-halving 


[RFC1122] R. Braden, ed., “Requirements for Internet Hosts—Communication 
Layers,” Internet RFC 1122/STD 0003, Oct. 1989. 


[RFC1812] F. Baker, ed., “Requirements for IP Version 4 Routers,” Internet RFC 
1812, June 1995. 


[RFC2018] M. Mathis, J. Mahdavi, S. Floyd, and A. Romanow, “TCP Selective 
Acknowledgment Options,” Internet RFC 2018, Oct. 1996. 


[RFC2140] J. Touch, “TCP Control Block Interdependence,” Internet RFC 2140, 
Apr. 1997. 


[RFC2309] B. Braden et al., “Recommendations on Queue Management and Con- 
gestion Avoidance in the Internet,” Internet RFC 2309 (informational), Apr. 1998. 


[RFC2861] M. Handley, J. Padhye, and S. Floyd, “TCP Congestion Window Vali- 
dation,” Internet RFC 2861 (experimental), June 2000. 


[RFC3042] M. Allman, H. Balakrishnan, and S. Floyd, “Enhancing TCP’s Loss 
Recovery Using Limited Transmit,” Internet RFC 3042, Jan. 2001. 


[RFC3124] H. Balakrishnan and S. Seshan, “The Congestion Manager,” Internet 
RFC 3124, June 2001. 


[RFC3168] K. Ramakrishnan, S. Floyd, and D. Black, “The Addition of Explicit 
Congestion Notification (ECN) to IP,” Internet RFC 3168, Sept. 2001. 


[RFC3465] M. Allman, “TCP Congestion Control with Appropriate Byte Count- 
ing (ABC),” Internet RFC 3465 (experimental), Feb. 2003. 


[RFC3517] E. Blanton, M. Allman, K. Fall, and L. Wang, “A Conservative Selec- 
tive Acknowledgment (SACK)-Based Loss Recovery Algorithm for TCP,” Internet 
RFC 3517, Apr. 2003. 


[RFC3540] N. Spring, D. Wetherall, and D. Ely, “Robust Explicit Congestion Noti- 
fication (ECN) Signaling with Nonces,” Internet RFC 3540 (experimental), June 
2003. 


[RFC3649] S. Floyd, “HighSpeed TCP for Large Congestion Windows,” Internet 
RFC 3649 (experimental), Dec. 2003. 


[RFC3742] S. Floyd, “Limited Slow-Start for TCP with Large Congestion Win- 
dows,” Internet RFC 3742 (experimental), Mar. 2004. 


[RFC3782] S. Floyd, T. Henderson, and A. Gurtov, “The NewReno Modification to 
TCP’s Fast Recovery Algorithm,” Internet RFC 3782, Apr. 2004. 


[RFC4015] R. Ludwig and A. Gurtov, “The Eifel Response Algorithm for TCP,” 
Internet RFC 4015, Feb. 2005. 


[RFC5348] S. Floyd, M. Handley, J. Padhye, and J. Widmer, “TCP Friendly Rate 


562 


Control (TFRC): Protocol Specification,” Internet RFC 5348, Sept. 2008. 


[RFC5562] A. Kuzmanovic, A. Mondal, S. Floyd, and K. Ramakrishnan, “Adding 
Explicit Congestion Notification (ECN) Capability to TCP’s SYN/ACK Packets,” 
Internet RFC 5562 (experimental), June 2009. 


[RFC5681] M. Allman, V. Paxson, and E. Blanton, “TCP Congestion Control,” 
Internet RFC 5681, Sept. 2009. 


[RFC5690] S. Floyd, A. Arcia, D. Ros, and J. Iyengar, “Adding Acknowledgement 
Congestion Control to TCP,” Internet RFC 5690 (informational), Feb. 2010. 


[RFC6077] D. Papadimitriou, ed., M. Welzl, M. Sharf, and B. Briscoe, “Open 
Research Issues in Internet Congestion Control,” Internet RFC 6077 (informa- 
tional), Feb. 2011. 


[S09] B. Sonkoly, Fairness and Stability Analysis of High Speed Transport Protocols, 
Ph.D. Thesis, Budapest University of Technology and Economics, 2009. 


[SCWA99] S. Savage, N. Cardwell, D. Wetherall, and T. Anderson, “TCP Con- 
gestion Control with a Misbehaving Receiver,” ACM Computer Communication 
Review, Apr. 1999. 


[SK02] P Sarolahti and A. Kuznetsov, “Congestion Control in Linux TCP,” Proc. 
Usenix Freenix Track, June 2002. 


[TCPTRACE] http://jarok.cs.ohiou.edu/software/tcptrace/index.html 


[TSZS06] K. Tan, J. Song, Q. Zhang, and M. Sridharan, “A Compound TCP 
Approach for High-Speed and Long-Distance Networks,” Proc. INFOCOM, Apr. 
2006. 


[W08] X. Wu, “A Simulation Study of Compound TCP,” http://www.comp.nus 
.edu.sg/~wuxiucha/research/reactive/publication/ctcp_study.pdf 


[WJLH06] D. Wei, C. Jin, S. Low, and S. Hegde, “FAST TCP: Motivation, Architec- 
ture, Algorithms, Performance,” IEEE/ACM Trans. on Networking, Mar. 2006. 


[WQOS] http://technet.microsoft.com/en-us/network/bb530836.aspx 


[WYSG05] R. Wang, K. Yamada, M. Sanadidi, and M. Gerla, “TCP with Sender- 
Side Intelligence to Handle Dynamic, Large, Leaky Pipes,” IEEE JSAC, 23(2), Feb. 
2005. 


[XHR04] L. Xu, K. Harfoush, and I. Rhee, “Binary Increase Congestion Control 
for Fast Long-Distance Networks,” Proc. INFOCOM, Mar. 2004. 


# 16 È 


| 第 17 章 


TCP/IP Illustrated, Volume 1: The Protocols, Second Edition 


TCP 保 活 机 制 





17.1 引言 

VES TCP/IP 的 初学 者 会 惊奇 地 发 现 ， 在 一 个 空闲 的 TCP 连接 中 不 会 有 任何 数据 交换 。 
也 就 是 说 ， 如 果 TCP 连接 的 双方 都 不 向 对 方 发 送 数据 ， 那 么 TCP 连接 的 两 端 就 不 会 有 任何 
的 数据 交换 。 例 如 ， 在 TCP 协议 中 ， 没 有 其 他 网 络 协议 中 的 轮 询 机 制 。 这 意味 着 我 们 可 以 
启动 一 个 客户 端 进程 ， 与 服务 器 端 建立 连接 ， 然 后 离开 几 个 小 时 、 几 天 、 几 星期 ， 甚 至 几 个 
月 ， 而 连接 依然 会 保持 。 理 论 上 ， 中 间 路 由 器 可 以 崩溃 和 重启 ， 数 据 线 可 以 断 开 再 连接 ， 只 
要 连接 两 端的 主机 没有 被 重新 启动 (或 者 更 改 IP 地 址 )， 那 么 它们 将 会 保持 连接 状态 。 


注意 上 述 假 设 只 是 在 特定 情况 下 发 生 的 。 首 先 ， 客 户 端 和 服务 器 都 没有 实现 应 用 
层 的 非 活动 状态 检测 计时 器 ,该 计时 器 超时 会 导致 任何 一 个 应 用 进程 的 终止 。 其 
次 ， 中 间 路 由 器 不 能 保存 连接 的 相关 状态 ,例如 一 个 NAT 配置 信息 。 某 些 特定 操 
作 中 常常 需要 这 些 状态 ， 而 它们 也 会 由 于 非 活动 状态 而 删除 ， 或 者 由 于 系统 故障 而 
丢失 。 这 些 前 提 条 件 在 现在 的 网 络 环境 中 是 很 难 实 现 的 。 


一 些 情况 下 ， 客 户 端 和 服务 器 需要 了 解 什么 时 候 终止 进程 或 者 与 对 方 断 开 连 接 。 而 在 男 
一 些 情况 下 ， 虽 然 应 用 进程 之 间 没 有 任何 数据 交换 ， 但 仍然 需要 通过 连接 保持 一 个 最 小 的 数 
据 流 。TCP 保 活 机 制 就 是 为 了 解决 上 述 两 种 情况 而 设计 的 。 保 活 机 制 是 一 种 在 不 影响 数据 流 
内 容 的 情况 下 探测 对 方 的 方式 。 它 是 由 一 个 保 活 计时 器 实现 的 。 当 计时 器 被 激发 ， 连 接 一 端 
将 发 送 一 个 保 活 探 测 (简称 保 活 ) 报 文 ， 男 一 端 接收 报 文 的 同时 会 发 送 一 个 ACK 作为 响应 。 


注意 保 活 机 制 并 不 是 TCP 规范 中 的 一 部 分 。 对 此 主机 需求 RFC [RFC1122] 给 出 
了 3 个 理由 。(1) 在 出 现 短 暂 的 网 络 错 误 的 时 候 ， 保 活 机 制 会 使 一 个 好 的 连接 断 
F; (2) 保 活 机 制 会 占用 不 必要 的 带宽 ; (3) 在 按 流量 计 费 的 情况 下 会 在 互联 网 上 
花 掉 更 多 的 钱 。 然 而 ， 大 部 分 的 实现 都 提供 了 保 活 机 制 。 


TCP 保 活 机 制 存在 争议 。 许 多 人 认为 ， 如 果 需 要 ， 这 一 功能 也 不 应 在 TCP 协议 中 提供 ， 
而 应 在 应 用 程序 中 实现 。 另 一 种 观点 认为 ， 如 果 许 多 应 用 程序 中 都 需要 这 一 功能 ， 那 么 在 
TCP 协议 中 提供 的 话 就 可 以 使 所 有 的 实现 都 包含 这 一 功能 。 保 活 机 制 是 一 个 可 选择 激活 的 功 
能 。 它 可 能 会 导致 一 个 好 的 连接 由 于 两 端 系统 之 间 网 络 的 短暂 断 开 而 终止 。 例 如 ， 如 果 在 中 
间 路 由 器 崩溃 并 重新 启动 的 时 候 保 活 探测 ， 那 么 TCP 协议 将 错误 地 认为 对 方 主机 已 经 骨 溃 。 

保 活 功能 一 般 是 为 服务 器 应 用 程序 提供 的 ， 服 务 器 应 用 程序 希望 知道 客户 主机 是 否 骨 
溃 或 离开 ， 从 而 决定 是 否 为 客户 端 绑 定 资源 。 利 用 TCP 保 活 功能 来 探测 离开 的 主机 ， 有 助 
于 服务 器 与 非 交 互 性 客户 端 进 行 相对 短 时 间 的 对 话 ， 例 如 ，Web 服务 器 、POP 和 IMAP 电 
子 邮 件 服务 器 。 而 更 多 地 实现 长 时 间 交 互 服务 的 服务 器 可 能 不 希望 使 用 保 活 功能 ， 如 ssh 和 
Windows 远程 桌面 这 样 的 远程 登录 系统 。 
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可 以 通过 一 个 简单 例子 来 说 明 保 活 功能 的 可 用 性 ， 即 用 户 利用 ssh (安全 shell) 远程 登 
录 程 序 穿越 NAT 路 由 器 登录 远程 主机 。 如 果 建 立 连 接 ， 并 做 了 相关 操作 ， 然 后 在 一 天 结束 
时 没有 退出 ， 而 是 直接 关闭 了 主机 ， 那 么 便 会 留 下 一 个 半 开 放 的 连接 。 在 第 13 章 中 已 经 提 
到 过 ， 通 过 一 个 半 开 放 的 连接 发 送 数据 会 返回 一 个 重 置信 息 ， 但 那 是 来 自 正 在 发 送 数据 的 客 
户 端 。 如 果 客 户 端 离开 了 ， 只 剩 下 服务 器 端的 一 个 半 开 放 的 连接 ， 而 服务 器 又 在 等 待 客户 端 
发 来 的 数据 ， 那 么 服务 器 将 会 永远 地 等 待 下 去 。 在 服务 器 端 探测 到 这 种 半 开 放 的 连接 时 ， 就 
可 以 使 用 保 活 功能 。 

相反 的 情况 下 同样 需要 使 用 保 活 机 制 。 如 果 用 户 没有 关闭 计算 机 ， 而 是 整个 晚上 保持 
连接 ， 第 二 天 可 以 继续 使 用 ， 那 么 连接 将 连续 几 个 小 时 处 于 空闲 状态 。 在 第 7 章 中 我 们 提 到 
过 ， 大 部 分 NAT 路 由 器 包含 超时 机 制 。 当 连接 在 一 段 时 间 内 处 于 非 活动 状态 时 ， 路 由 器 将 
断 开 连 接 。 如 果 NAT 超时 时 限 小 于 用 户 重 新 登录 之 前 的 几 个 小 时 ， 且 NAT 不 能 探测 到 端 主 
机 并 确认 它 还 处 于 活动 状态 ,或 者 NAT 路 由 器 崩溃 ,那么 该 连接 将 被 终止 。 为 了 避免 这 种 
情况 的 发 生 ， 用 户 可 以 配置 sh， 启动 TCP 保 活 功能 。ssh 还 能 够 使 用 应 用 程序 管理 的 保 活 
功能 。 两 种 功能 的 行为 模式 不 同 ， 特 别 是 安全 性 方面 (参见 17.3 节 了 解 细节 )。 


17.2 描述 


保 活 功能 在 默认 情况 下 是 关闭 的 。TCP 连接 的 任何 一 端 都 可 以 请 求 打 开 这 一 功能 。 保 活 
功能 可 以 被 设置 在 连接 的 一 端 、 两 端 ， 或 者 两 端 都 没有 。 有 几 个 配置 参数 可 以 用 来 控制 保 活 
功能 的 操作 。 如 果 在 一 段 时 间 ( 称 为 保 活 时 间 ，keepalive time) 内 连接 处 于 非 活动 状态 ， 开 
启 保 活 功能 的 一 端 将 向 对 方 发 送 一 个 保 活 探测 报 文 。 如 果 发 送 端 没 有 收 到 响应 报 文 ， 那 么 经 
过 一 个 已 经 提前 配置 好 的 保 活 时 间 间 隔 (keepalive interval)， 将 继续 发 送 保 活 探 测报 文 ， 直 
到 发 送 探 测报 文 的 次 数 达 到 保 活 探测 数 (keepalive probe)， 这 时 对 方 主机 将 被 确认 为 不 可 到 
达 ， 连 接 也 将 被 中 断 。 

保 活 探测 报 文 为 一 个 空 报 文 段 (或 只 包含 1 字 节 )。 它 的 序列 号 等 于 对 方 主 机 发 送 的 
ACK 报 文 的 最 大 序列 号 减 1。 因 为 这 一 序列 号 的 数据 段 已 经 被 成 功 接收 ， 所 以 不 会 对 到 达 的 
报 文 段 造成 影响 ， 但 探测 报 文 返回 的 响应 可 以 确定 连接 是 否 仍 在 工作 。 探 测 及 其 响应 报 文 都 
不 包含 任何 新 的 有 效 数据 ( 它 是 “垃圾 ”数据 )， 当 它们 丢失 时 也 不 会 进行 重 传 。[RFC1122] 
指出 ， 仅 和 赁 一 个 没有 被 响应 的 探测 报 文 不 能 判断 连接 是 否 已 经 停止 工作 。 这 就 是 保 活 探测 
数 参 数 需 要 被 提前 设置 的 原因 。 值 得 注意 的 是 ， 一 些 TCP 实现 (大 部 分 是 早期 的 TCP 实现 ) 
不 会 响应 那些 不 包含 “垃圾 ”数据 的 保 活 探测 报 文 。 

TCP 保 活 功能 工作 过 程 中 ， 开 启 该 功能 的 一 端 会 发 现 对 方 处 于 以 下 四 种 状态 之 一 : 

1. 对 方 主机 仍 在 工作 ， 并 且 可 以 到 达 。 对 方 的 TCP 响应 正常 ， 并 且 请 求 端 也 知道 对 方 
在 正常 工作 。 请 求 端 将 保 活 计时 器 重 置 (重新 设 定 为 保 活 时 间 值 )。 如 果 在 计时 器 超时 之 前 
有 应 用 程序 通过 该 连接 传输 数据 ， 那 么 计时 器 将 再 次 被 设 定 为 保 活 时 间 值 。 

2. 对 方 主机 已 经 骨 溃 ， 包 括 已 经 关闭 或 者 正在 重新 启动 。 这 时 对 方 的 TCP 将 不 会 响应 。 
请 求 端 不 会 接收 到 响应 报 文 ， 并 在 经 过 保 活 时 间 间 隔 指定 的 时 间 后 超时 。 超 时 前 ， 请 求 端 会 
持续 发 送 探测 报 文 ， 一 共 发 送 保 活 探测 数 指定 次 数 的 探测 报 文 ， 如 果 请 求 端 没 有 收 到 任何 探 
测报 文 的 响应 ， 那 么 它 将 认为 对 方 主机 已 经 关闭 ， 连 接 也 将 被 断 开 。 

3. 客户 主机 崩溃 并 且 已 重启 。 在 这 种 情况 下， 请求 端 会 收 到 一 个 对 其 保 活 探测 报 文 的 响 
应 ， 但 这 个 响应 是 一 个 重 置 报 文 段 ， 请 求 端 将 会 断 开 连接 。 
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4. 对 方 主机 仍 在 工作 ,但 是 由 于 某 些 原 因 不 能 到 达 请 求 端 (例如 网 络 无 法 传输 ， 而 且 可 
能 使 用 ICMP 通知 也 可 能 不 通知 对 方 这 一 事实 )。 这 种 情况 与 状态 2 相同 ， 因 为 TCP 不 能 区 
分 状态 2 与 状态 4， 结果 都 是 没有 收 到 探测 报 文 的 响应 。 

请 求 端 不 必 担 心 对 方 主机 正常 关闭 然后 重启 (不 同 于 主机 崩溃 ) 的 情况 。 当 系统 关机 时 ， 
所 有 的 应 用 进程 也 会 终止 ( 即 对 方 的 进程 )， 这 会 使 对 方 的 TCP 发 送 一 个 FIN。 请 求 端 接收 
到 FIN 后 ,会 向 请 求 端 进程 报告 文件 结束 ， 并 在 检测 到 该 状态 后 退出 。 

站 在 第 1 种 情况 下 ， 请 求 端的 应 用 层 不 会 觉察 到 保 活 探测 的 进行 (除非 请 求 端 应 用 层 激活 
保 活 功能 )。 一 切 操作 均 在 TCP 层 完 成 ， 因 此 这 一 过 程 对 应 用 层 是 透明 的 ， 直 至 第 2、3、4 种 
情况 中 的 某 种 情况 发 生 。 在 这 三 种 情况 中 ， 请 求 端的 应 用 层 将 收 到 一 个 来 自 其 TCP 层 的 差错 
报告 (通常 请 求 端 已 经 向 网 络 发 出 了 读 操作 请 求 ， 并 且 等 待 来 自 对 方 的 数据 。 如 果 保 活 功能 返 
回 了 一 个 差错 报告 ， 则 该 差错 报告 将 作为 读 操 作 请 求 的 返回 值 返回 给 请 求 端 )。 在 第 2 种 情况 
下 ， 差 错 是 诸如 “连接 超时 ”之 类 的 信息 ， 而 在 第 3 种 情况 下 则 为 “连接 被 对 方 重 置 ” 。 第 4 
种 情况 可 能 是 连接 超时 ， 也 可 能 是 其 他 的 错误 信息 。 在 下 一 节 中 我 们 将 重点 讨论 这 四 种 情况 。 

变量 保 活 时 间 、 保 活 时 间 间 隔 和 保 活 探测 数 的 设置 通常 是 可 以 变更 的 。 有 些 系统 允许 用 
户 在 每 次 建立 连接 时 设置 这 些 变量 ， 还 有 一 些 系统 规定 只 有 在 系统 启动 时 才能 设置 《有 的 系 
统 两 者 缘 可 )。 在 Linux 系统 中 ,这 些 变量 分 别 对 应 sysctl 变量 net.ipv4.tcp_keepalive_time, 
net.ipv4.tcp_keepalive_intvl, net.ipv4.tep_keepalve _ probes， 默 认 设 置 是 7200 秒 (2 小 时 )、 
75 秒 和 9 次 探测 。 

在 FreeBSD 和 Mac OS X 系 统 中 ， 前 两 个 变量 对 应 sysctl 变量 net.inet.tcp.keepidle 和 
net,inet,tcp.keepintv1， 默 认 设置 为 7200 秒 (2 小 时 ) 和 75000 毫 秒 (75 秒 )。 这 两 个 系统 
还 包含 一 个 名 为 net.inet.tcp.always_keepalive 的 布尔 变量 。 如 果 这 个 变量 被 激活 ， 那 么 即 
使 应 用 程序 没有 请 求 ， 所 有 TCP 连接 的 保 活 功能 都 会 被 激活 。 探 测 次 数 被 设 定 为 固定 值 8 
(FreeBSD 系统 ) 或 9 (Mac OS X 系统 )。 

在 Windows 系统 中 ， 可 通过 在 系统 键 值 下 修改 注册 表 项 来 设置 变量 : 


HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters 


KeepAliveTime 保 活 时 间 默 认为 7 200 000 毫秒 (2 小 时 )，KeepAliveInterval ( 保 活 时 间 
间隔 ) 默认 为 1000 毫秒 (1 秒 )。 如 果 10 个 保 活 探测 报 文 都 没有 响应 ，Windows 系统 将 终止 
连接 。 796 
值得 注意 的 是 ，[RFC1122] 明确 给 出 了 用 户 使 用 保 活 功能 的 限制 。 保 活 时 间 值 必须 是 可 
配置 的 ， 而 且 默 认 不 能 小 于 2 小时。 此 外 ， 除 非 应 用 层 请 求 开 启 保 活 功能 ， 和 否则 不 能 使 用 该 
功能 (而 如 果 net.inet.tcp.always_keepalive 变量 被 设置 时 会 违反 这 一 限制 )。 没 有 经 过 应 用 层 
的 请 求 ，Linux 系统 不 会 提供 保 活 功能 ,但 是 一 个 特殊 库 会 被 预先 载 入 ( 即 在 载 入 普通 共享 
库 之 前 )， 从 而 实现 该 功能 [LKA]。 


17.2.1 保 活 功 能 举例 


现在 详细 讨论 上 一 节 提 到 的 第 2、3、4 种 情况 ， 我 们 将 在 使 用 保 活 机 制 的 前 提 下 观察 数 
据 包 的 交换 。 第 1 种 情况 的 操作 将 在 观察 其 他 几 种 情况 的 过 程 中 涉及 。 


17.2.1.1 55 — bia AT 
我 们 想 了 解 当 服务 器 主机 崩溃 且 没 有 重新 启动 时 的 过 程 。 为 了 模拟 这 种 情况 ， 我们 需要 
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进行 以 下 几 个 步骤 : 

1. 利用 Windows 客户 端 上 的 regedit 程序 ， 修 改 注 册 表 键 值 ， 将 KeepAliveTime 设置 为 
7000 毫秒 (7 秒 )。 设 置 新 的 值 ， 可 能 需要 系统 重新 启动 。 

2. 在 Windows 客户 端 和 一 个 已 经 开启 TCP 保 活 功能 的 Linux 服务 器 之 间 建 立 ssh 连接 。 

3. 确保 数据 可 以 通过 该 连接 传输 。 

4. 观察 客户 端的 TCP 每 7 秒 发 送 一 个 保 活 数 据 包 ， 并 且 这 些 数据 包 都 可 以 被 服务 器 
TCP 接收 到 。 

5. 保持 服务 器 端的 网 线 断 开 。 这 时 客户 端 会 认为 服务 器 主机 已 经 崩 演 。 

6. 我 们 预计 ， 在 确认 连接 断 开 之 前 ， 客 户 端 会 发 送 10 个 间隔 为 1 秒 的 保 活 探 测报 文 。 

这 里 是 客户 端的 交互 输出 结果 : 

C:\> ssh -o TCPKeepAlive=yes 10.0.1.1 

(password prompt and login continues) 

Write failed: Connection reset by peer (about 15 seconds after disconnect) 

图 17-1 是 利用 Wireshark 工具 的 显示 结果 。 在 这 个 例子 中 ， 连 接 已 经 被 建立 。Wireshark 
首先 输出 一 个 没有 被 识别 的 保 活 报 文 (数据 包 1 )。 此 时 ，Wireshark 还 没有 足够 的 数据 包 来 
处 理 ， 不 能 发 现 数据 包 1 中 的 序列 号 小 于 接收 端 窗口 的 左边 界 ， 因 此 不 能 判断 数据 包 1 是 一 
个 保 活 报 文 。 数 据 包 2 中 包含 一 个 ACK 号 ， 它 可 以 使 Wireshark 对 后 续 数 据 包 中 的 序列 号 
进行 适当 的 人 处理。 

这 一 连接 大 部 分 由 保 活 报 文 和 对 应 的 响应 报 文 组 成 。 数 据 包 1、3、5、7、14、16、18、 
20 以 及 22 ~ 31 都 是 保 活 报 文 。 数 据 包 2、4、6、8、15、17、19、21 是 这 些 报 文 相应 的 响应 。 
如 果 保 活 报 文 得 到 响应 ， 那 么 客户 端 将 每 隔 7 秒 发 送 一 次 。 而 当 保 活 报 文 没有 被 响应 时 ， 发 
送 方 将 会 根据 KeepAliveInterval 设 定 的 默认 值 ， 转 变 为 每 隔 1 秒 发 送 一 个 保 活 报 文 。 这 一 情 
况 发 生 在 62.120s 时 刻 ， 也 就 是 第 23 个 数据 包 发 送 时 。 发 送 方 共 发 送 了 10 个 没有 被 响应 的 
保 活 报 文 (数据 包 22 ~ 31 )。 在 这 之 后 ， 客 户 端 会 断 开 连 接 ， 发 送 最 后 的 重 置 报 文 段 (数据 
包 32 )， 但 不 会 收 到 对 方 的 任何 响应 。 当 连接 断 开 时 ， 用 户 将 收 到 下 面 一 段 输出 信息 : 


Write failed: Connection reset by peer 


很 明显 连接 已 经 断 开 ， 但 是 这 种 方式 并 不 完全 准确 。 事 实 上 的 确 是 发 送 端 将 连接 断 开 的 ， 但 
ee ee ee 判断 的 。 

除了 利用 了 保 活 机 制 之 外 ， 这 一 连接 还 有 一 些 其 他 有 趣 的 功能 ， 这 里 做 简要 说 明 。 首 
先 ， aa 个 序列 号 区 间 ， 为 之 前 接 
收 到 的 序列 号 范围 。 其 次 ， 在 26.09s 时 刻 ， 有 一 个 很 小 比特 的 数据 交换 。 这 个 数据 只 代表 
了 一 个 键盘 键 的 按 下 。 它 被 发 送 给 服务 器 ， 服 务 器 对 其 进行 确认 并 回 显 。 由 于 这 一 数据 被 加 
密 ， 导 致 该 数据 包 中 的 用 户 数据 大 小 为 48 字 节 (第 18 章 )。 

有 趣 的 是 ， 回 显 的 数据 被 发 送 了 两 遍 。 可 以 看 到 11 号 包 为 回 显 数据 包 ， 但 是 它 没有 被 
立即 响应 。 回 想 一 下 第 14 章 ，Linux 系统 RTO 至 少 为 200 毫秒 。 这 里 我 们 可 以 看 到 ，Linux 
服务 器 在 200 毫秒 之 后 重 传 了 该 数据 ,这 次 传输 很 快 得 到 了 客户 端的 响应 。 因 为 网 络 中 无 拥 
塞 发 生 ， 所 以 基本 不 可 能 出 现 11 号 包 丢 失 的 情况 。 由 于 客户 端的 延迟 响应 ，Linux 服务 器 
进行 了 假 重 传 。 这 种 情况 类 似 于 第 15 章 讨论 过 的 Nagle 算法 与 延 时 ACK 的 关系 。 从 结果 上 
看 ， 这 里 发 生 了 不 必要 的 200 毫秒 延迟 。 


TCP 保 活 机 市 567 








win?-linux-keepalive -disconnect.td - Wireshark 
Ble Edt View Go Capture Analyze Statistics Telephony Tools hielp cha 
BUR M Baxes 4+seF2 Ble aaan ELET: 
No, Te i Protocol Info a 
1 0.000000 pO. REY TCP 49192 > 22 [ACK] Seq-1 Ack=i win<65407 Len=1 
03 vis TCP 22 > 49102 
TOP TCR 


á 9 26.090637 0.1, 0.1, 49192 > 22 [PSH, ACK] Seg=2 Ack=1 Win=65407 Len=48 
10 25.090984 Bi T o WE Re 22 > 49192 [ack] Seq=1 Ack=50 Win=11872 Len=0 
` 11 26.091840 0.2. Les 22 > 49192 [PSH, ACK] Segel Ack=50 win=11872 Len=48 


13 26.293568 O52. 0.1. 49192 > 22 [ACK] Seq=50 Ack]49 Win=65359 Len=0 SLE=1 SRE=49 


is Frame 3: 60 bytes on wire (480 bits), 60 bytes captured (480 bits) 
a Ethernet II, Src: 00:30:67:18:da:58 (00:30:67:18:da:58), DSt: OO; Oat SaroFi9e:80 (00:04: 5ar9F:9e:80) 
外 Internet Protocol, Sre: 10.0.1.37 (10,011.37), Ost: 10.0.1,1 (0.0.2.1) 
Transmission Control Protocol, Src Port: 49192 (49192), Dst Port: 22 (22), Seq: 1, Ack: 1, Lan: 1 
Source port: 49192 (49192) 
Destination port: 22 (22) 
{stream index: 0] 
Sequence number: 1 (relative sequence number) 
[Next sequence number; 2 relative sequence number] 
Gwledgement number: 1 relative ack number) 


= conan Ee 
[Number of bytes in flight: 1] 
ia [TCP Analysis Flags] 
ti [This 1s a TCP keep-alive segment] 
a [Expert Info (Note/Sequence): Keep-Alive] 
 [Timestamps ]) 





图 17-1 连接 空闲 之 后 ，TCP 保 活 报 文 每 间隔 7 秒 发 送 一 次 。 每 一 个 报 文中 包含 一 个 小 于 已 被 确认 数 
据 的 序列 号 。 当 网 线 断 开 1 分 钟 后 ， 后 续 的 保 活 报 文 就 不 会 收 到 响应 。 客 户 端 会 发 送 10 次 
保 活 报 文 ， 如 果 都 没有 响应 会 将 连接 断 开 。 断 开 连 接 时 ， 客 户 端 会 向 服务 器 发 送 重 置 报 文 段 
(服务 器 不 会 接收 到 )。 这 个 例子 还 说 明了 服务 器 使 用 了 DSACK 机 制 ， 客 户 端的 延迟 响应 会 
导致 假 重 传 


17.2.1.2” 另 一 端 崩溃 并 已 重新 局 动 

在 这 个 例子 中 ， 我 们 需要 观察 当 对 方 主机 崩溃 并 且 重启 时 会 发 生 什么 。 这 一 次 我 们 把 
KeepAliveTime 设置 为 120 000 毫秒 (2 分钟 )， 其 他 的 初始 设置 与 前 面 的 例子 相同 。 我 们 建 
立 一 个 连接 ， 然 后 等 待 2 分 钟 ， 客 户 端 会 发 送 一 个 保 活 消息 并 成 功 接收 到 相应 的 响应 。 之 后 
我 们 将 服务 器 这 出 的 网 络 断 开 ， 并 将 服务 器 重新 启动 ， 最 后 将 它 重 新 连接 到 网 络 。 我 们 预计 ， 

ea 服务 器 将 发 出 一 个 重 置信 息 ， 因为 服务 器 此 刻 不 知 道 该 连接 的 任何 信 

Foe , B| 17-2 显示 了 Wireshark 记录 下 的 整个 过 程 。 

在 这 个 例子 中 ， 从 0.00s 到 3.46s， 连 接 被 建立 ， 并 且 有 少量 的 数据 交换 。 之 后 连接 进入 
空闲 状态 。 经 过 2 分钟 ( 保 活 时 间 值 ) 之 后 ,客户 端 在 123.47s 时 发 送 第 一 个 保 活 探测 报 文 ， 
包含 小 于 接收 端 窗口 左边 界 的 “垃圾 ” 字 节 。 该 报 文 被 确认 ， 之 后 服务 器 被 断 开 网 络 连 接 、 
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重新 启动 、 重 新 连接 网 络 。 在 243.47s 的 时 候 ， 也 就 是 120s 之 后 ， 客 户 端 发 送 了 它 的 第 二 个 
保 活 探测 报 文 。 虽 然 服务 器 收 到 了 探测 报 文 ， 但 是 它 不 知道 该 连接 的 任何 信息 ， 所 以 它 会 

回 一 个 重 置 报 文 段 (数据 包 18 )， 通 知客 户 端 该 连接 已 经 无 效 ， 用 户 也 会 看 到 前 面 已 经 出 现 
过 的 “Connection reset by peer "(连接 被 对 方 重 置 ) 的 错误 信息 。 


win? -to-linux-keepalive-crash.td - Wireshark 
Be Yew Go Capture. Analyze. Statistics Telephony.. Joos- Belbus.. 
See BaAxes a a 


22 > 49179 [PSH, ACK] Seqal Acka win=395 Len=48 

22 > 49179 [PSH, ACK] Seq=49 Ack=49 Win=395 Len=id4 
49179 > 22 [ACK] Seqe49 Ack=193 Win=65215 Leneo 
_ 22 > 49179 [PSH, ACK] Seqe193 Ack=49 Win=395 Len=80 


22 > 49179 [PSH, ACK] Seq=273 Ack=97 wirm395 Lene48 

22 > 49179 [PSH, ACK] Seq=321 Ack=97 win=395 Len=144 

49179 3 22 [ack] Seq-97 Acke465 Win=64943 Len=0 
os T. _ 


Wi tt 


z 








© Frame 17; 60 bytes on wire (480 bits), 60 bytes captured (480 bits) 
@ Ethernet tI, Src: 00:30:67:18:dai58 (00:30:67:18rdai58), Ost: 00:04:5a:9F:9er80 (00:04:Sa:9F: 98:80) 
下 Internet Protocol, src: 10.0,1.37 (10.0.1:37), DSt: 10.0.1.1 (1070,1.1) 
& Transmission Control Protocol, sre Port: 49179 (49179), Dst Port: 22 (22), Seq: 96, Ack: 545, Len: 1 
Source port: 49179 (49179) 
Destination port: 22 (22) 
[Stream index: 0] 
Sequence number: 96 Crelative sequence number) 
[Next sequence number: 97 (relative sequence number )] 
Acknowledgement number: 545 (relative ack number) 
Header length: 20 bytes 
Flags: 0x10 (ack) 
Window size: 64863 
f Checksum: Oxf611 [correct] 
a [SEQ/ACK analysis] 
[Number of bytes in flight: 1] 
@ [TCP ahalysis Flags] 
& [This is a TCP keep-alive segment] 
a [Expert Info (Note/Sequence): Keep-Alive) 
(Message: Keep-Alive] 
(severity level: note] 
[Group: Sequence] 
æ [Timestamps] 





图 17-2 在 客户 端 发 送 保 活 报 文 的 间隔 中， 服务 器 已 经 重新 启动 。 由 于 服务 器 不 知道 该 连接 的 任何 信 
息 ， 所 以 返回 一 个 重 置 报 文 段 


17.2.1.3” 另 一 端 不 可 达 

在 这 种 情况 下 ,服务器 没有 崩溃, 但 是 在 保 活 探测 报 文 发 送 间 隔 内 无 法 到 达 。 原 因 可 能 
是 中 间 路 由 器 崩溃 ， 或 者 会 话 连接 出 现 故 障 ， 或 者 其 他 类 似 的 情况 。 为 了 模拟 这 种 情况 ， 需 
要 利用 配置 了 保 活 功能 的 sock 程序 与 Web 服务 器 之 间 建 立 一 条 连接 。 我 们 使 用 一 台 Mac OS 
X 系统 的 客户 端 和 一 台 LDAP 服务 器 (端口 389 )， 它 运行 于 网 站 ldap.mit.edu。 这 里 我 们 缩 
短 了 客户 端的 保 活 时 间 值 (为 了 方便 )， 然 后 打开 连接 ， 之 后 断 开 网 络 连接 ， 然 后 来 看 看 会 有 
什么 影响 。 下 面 是 命令 行 和 客户 端的 输出 。 


Mac# sysctl -w net.inet.tcp.keepidle=75000 
Mac% sock -K ldap.mit.edu 389 
recv error: Operation timed out about 14 minutes later 


图 17-3 显示 了 利用 Wireshark 记录 的 整个 过 程 。 
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图 17-3 第 一 次 保 活 探测 报 文 被 确认 之 后 ， 网 络 连 接 断 开 。 客 户 端 每 隔 75 秒 发 送出 一 个 新 的 探测 报 
文 。 在 发 送 了 9 次 都 没有 响应 之 后 ， 连 接 被 断 开 。 同 时 客户 端 向 对 方 发 送 一 个 重 置信 号 。 对 
于 客户 端 而 言 ， 这 种 情况 与 图 17-1 所 示 的 服务 器 崩溃 的 情况 相同 


从 图 中 我 们 可 以 看 到 一 个 完整 的 连接 过 程 。 在 初始 的 三 次 握手 之 后 ， 连 接 保 持 空闲 状 
态 。 在 大 约 75 秒 时 (数据 包 4 ) 客户 端 发 送 一 个 保 活 报 文 并 得 到 确认 响应 。 这 个 第 一 次 发 送 
的 保 活 报 文 是 由 变量 net.inet.tcp.keepidle 的 值 来 决定 的 。 在 这 之 后 不 久 ， 网 络 开 始 工作 。 由 
于 连接 的 两 端 都 没有 传输 数据 ， 所 以 在 150 秒 (75 秒 之 后 ， 等 于 变量 net,inet.tcp.keepintvl 
的 值 ) 时 ， 客 户 端 会 发 送 一 个 新 的 保 活 报 文 ， 如 数据 包 7 ~ 14 所 显示 的 重复 操作 。 虽 然 服 
务 器 开启 且 正 常 工作 ， 但 是 客户 端 仍然 不 能 接收 到 任何 响应 。 最 后 ， 当 客户 端 第 9 次 发 送 保 
活 报 文 ， 并 且 经 过 75 秒 之 后 仍 没 有 收 到 确认 响应 时 ， 客 户 端 结束 该 连接 。 连 接 中 断 时 客户 
端 会 向 服务 器 发 送 一 个 重 置 报 文 段 (数据 包 15 )。 当 然 ， 由 于 网 络 是 断 开 的 ， 所 以 服务 器 不 
能 接收 到 这 个 数据 包 。 

像 上 面 例子 显示 的 一 样 ， 当 客户 端的 TCP 不 能 利用 保 活 报 文 与 对 方 通信 时 ， 客 户 端 在 
终止 该 连接 前 还 会 做 一 定 次 数 的 尝试 。 这 基本 上 与 我 们 前 面 看 到 的 男 一 端 主 机 崩 演 的 情况 相 
同 。 在 大 多 数 情况 下 ， 发 送 端 不 能 区 分 这 两 种 状态 。 也 会 有 一 些 例外 情况 ， 如 通过 ICMP 可 
以 知道 目的 主机 不 可 达 ， 或 者 由 于 其 他 的 网 络 原因 导致 目的 主机 不 可 用 。 但 是 由 于 ICMP 经 
常 被 阻塞 ， 所 以 很 少 能 区 分 。 因 此 ，TCP 保 活 机 制 (或 者 一 些 由 应 用 层 实现 的 相似 的 机 制 ) 
可 以 用 来 检测 连接 断 开 的 周期 。 


17.3 与 TCP 保 活 机 制 相关 的 攻击 


之 前 提 到 过 ，ssh (第 2 版 ) 中 含有 一 种 应 用 层 的 保 活 机 制 ， 称 为 服务 器 保 活 报 文 和 客 
户 端 保 活 报 文 。 与 TCP 保 活 报 文 的 区 别 在 于 ， 它 们 是 在 应 用 层 通过 一 条 加 密 的 链 路 传输 的 ， 
而 且 这 些 报 文中 包含 数据 。TCP 保 活 报 文中 不 包含 任何 用 户 数据 ， 所 以 它 最 多 只 进行 有 限 的 
加 密 。 因 此 TCP 保 活 机 制 容 易 受 到 欺骗 攻击 。 当 受到 欺骗 攻击 时 ， 在 相当 长 的 一 段 时 间 内 ， 
受害 主机 必须 维护 不 必要 的 会 话 资源 。 

还 有 一 些 相 对 次 要 的 问题 ,TCP 保 活 机 制 的 计时 器 是 由 之 前 提 到 的 不 同 配 置 参 数 决 定 的 ， 
而 不 是 用 于 数据 传输 的 重 传 计时 器 。 对 于 被 动 的 观察 者 来 说 ， 他 们 能 够 注意 到 保 活 报 文 的 存 
在 ， 并 观察 保 活 报 文 发 送 的 间隔 时 间 ， 从 而 了 解 系统 的 配置 参数 (可 能 获取 发 送 系 统 类 别 信 
息 ， 称 为 系统 指纹 ) 或 者 网 络 的 拓扑 结构 ( 即 下 一 跳 路 由 器 是 否 能 够 转发 数据 流量 )。 这 些 问 
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题 在 某 些 环境 下 是 非常 重要 的 。 


17.4 Ba 


如 前 所 述 ， 保 活 功 能 存在 一 定 争议 性 。 协 议 专家 仍然 在 不 断 争 论 该 功能 是 否 应 该 属于 传 
输 层 ， 还 是 全 部 交 由 应 用 层 处 理 。 现 在 所 有 主流 TCP 版 本 都 实现 了 保 活 功能 。 应 用 层 可 以 
选择 是 否 开启 这 一 功能 来 建立 连接 。 开 启 保 活 功能 ， 即 使 在 没有 应 用 层 数据 传输 的 情况 下 ， 
仍 能 帮助 服务 器 判断 没有 响应 的 客户 端 ， 也 可 以 帮助 客户 端 保 持 连接 活路 性 (例如 保持 NAT 
状态 活跃 )。 

若 某 个 连接 长 时 间 处 于 空闲 状态 (通常 这 段 时 间 设 定 为 2 小 时 )， 在 该 连接 的 一 端 会 发 送 
一 个 探测 数据 包 (虽然 这 个 数据 包 可 以 不 含 任何 数据 ,但 通常 情况 下 会 包含 “垃圾 ” 字 节 )， 
从 而 实现 保 活 功能 。 可 能 会 发 生 4 种 不 同 的 情况 : 另 一 端 仍 在 工作 ; 另 一 端 崩溃 ; 另 一 端 骨 
溃 并 且 已 经 重新 启动 ; 另 一 端 当前 无 法 到 达 。 我 们 分 别 举 了 一 个 例子 来 观察 这 4 种 情况 。 

在 前 两 个 例子 中 ， 如 果 没 有 使 用 保 活 功能 ， 而 且 也 没有 应 用 层 的 计时 器 或 者 计时 器 未 被 
激活 ， 那 么 TCP 将 不 会 知道 另 一 端 已 经 崩溃 (或 已 经 骨 溃 但 已 重新 启动 )。 在 最 后 一 个 例子 
中 ， 连 接 的 两 端 都 没有 出 现 差错 ， 而 连接 最 终 却 被 断 开 了 。 在 使 用 保 活 功 能 的 时 候 ， 我 们 必 
须 意 识 到 这 一 功能 的 限制 ， 并 且 考 虑 这 种 处 理 方 式 是 否 是 我 们 所 期 望 的 。 

针对 保 活 机 制 的 攻击 主要 包括 两 种 : 一 种 是 使 系统 长 时 间 地 维护 不 必要 的 会 话 资 源 ， 男 
一 种 是 获得 端 系 统 隐 藏 的 一 些 信息 (虽然 这 些 信息 对 于 攻击 者 而 言 可 能 实用 性 有 限 )。 此 外 ， 
由 于 默认 情况 下 TCP 不 会 对 保 活 报 文 进行 加 密 ， 所 以 保 活 探测 报 文 和 确认 报 文 都 有 可 能 被 
利用 。 然 而 ， 对 于 应 用 层 的 保 活 机 制 (例如 ssh)， 这 些 报 文 都 会 被 加 密 ， 所 以 也 就 不 会 出 现 
上 述 情况 。 


17.5 参考 文献 


[LKA] http://libkeepalive.sourceforge.net 
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18.1 引言 


本 章 将 会 介绍 与 TCP/IP 一 同 使 用 的 安全 方案 。 安 全 是 一 个 内 容 广泛 又 十 分 有 趣 的 话题 ， 
其 涵盖 的 内 容 远 远 超 出 了 本 书 所 涉及 的 范围 。 因 此 ， 本 章 将 着 重 介绍 互联 网 上 的 安全 威胁 ， 
并 详细 讨论 抵御 这 些 威 胁 的 安全 机 制 。 这 些 安全 机 制 适用 于 各 种 协议 ， 比 如 I、TCP URE 
要 的 电子 邮件 与 DNS 应 用 协议 。 

虽然 下 述 分 类 并 不 正式 ， 但 安全 威胁 一 般 可 以 根据 执行 目标 的 不 同 分 为 三 类 攻击 : 试图 
颠覆 已 有 过 程 来 运行 其 他 不 应 该 执行 的 代码 ; 试图 获得 用 户 权 限 来 运行 恶意 程序 ; 采用 未 经 
授权 的 方法 使 用 兼容 的 网 络 协议 。 本 书 的 其 他 章节 已 经 介绍 过 一 些 上 述 形式 的 攻击 。 例 如 ， 
互联 网 最 早 的 蠕虫 (自我 繁殖 软件 ) 之 一 就 是 利用 了 缓冲 区 溢出 的 问题 重 写 服务 器 进程 的 内 
存 。 客 户 端 程序 能 够 将 蠕虫 软件 注 和 人 服务 器 中 ， 从 而 使 服务 器 最 终 运 行 注入 的 代码 。 注 入 的 
代码 还 会 重复 上 述 动作 ， 从 而 实现 自身 的 繁殖 。 因 此 ， 这 种 代码 会 比 简单 的 自我 繁殖 带 来 更 
多 的 危害 。 

各 种 类 型 的 攻击 与 技术 能 够 结合 起 来 。 随 着 互联 网 上 信息 价值 的 不 断 提 升 ， 复 杂 的 软件 
与 安全 分 析 工 具 也 在 不 断 发 展 。 一 些 文章 (包括 [MSK09]) 详细 地 讨论 了 这 些 工具 与 技术 。 
如 今 ， 任 何 由 用 户 或 以 用 户 账户 执行 却 违背 了 用 户 本 身 意愿 的 软件 被 统称 为 恶意 软件 (英文 
为 malware， 它 是 “ malicious software ”的 缩写 )。 随 着 行业 的 发 展 ， 提 高 与 降低 恶意 软件 
影响 的 能 力 都 在 不 断 发 展 。 恶 意 软件 能 够 借助 电子 邮件 的 消息 或 附件 传播 (例如 借助 垃圾 邮 
件 )， 在 用 户 访 问 网 站 时 侵入 ( 隐 式 攻击 ), 或 者 在 用 户 使 用 便携 式 多 媒体 设备 (比如 USB IK 
动 器 ) 时 传播 。 

在 一 些 情况 下 ， 恶 意 软件 被 用 于 控制 互联 网 上 大 量 的 计算 机 (僵尸 网 络 ，botnet)。 僵 己 
网 络 由 个 人 或 某 一 组 织 (僵尸 牧人 ) 控制 。 它 的 用 途 非 常 广泛 ， 比 如 发 送 垃圾 邮件 ， 和 危害 其 
他 计算 机 ， 从 被 感染 的 系统 中 窍 取 信息 (例如 信用 卡 与 银行 账户 的 信息 ， 以 及 用 户 登 录 时 项 
击 的 键 码 )， 通 过 向 一 个 或 多 个 受害 者 发 送 大 量 的 互联 网 流量 来 发 起 拒绝 服务 攻击 。 如 今 ， 伪 
尸 网 络 已 经 成 了 一 项 租赁 服务 一 一 客户 能 够 雇佣 僵尸 牧人 来 执行 一 个 或 多 个 恶毒 的 任务 。 一 
种 常见 的 任务 是 生成 电子 邮件 来 诱导 接收 者 访问 某 个 特定 的 网 站 或 者 购买 某 一 特定 的 商品 
(网 络 钓 鱼 )。 当 某 一 受害 者 成 为 上 述 方式 的 特定 目标 时 ， 这 种 行为 通常 称 为 鱼 又 式 网 络 钓鱼 
(spear phishing ) 。 

本 章 的 着 重点 在 于 理解 互联 网 上 的 安全 通信 协议 是 如 何 工 作 的 。 具 有 讽刺 意味 的 是 ， 也 
许 有 许多 蠕虫 与 病毒 都 执行 着 安全 通信 协议 。 在 大 多 数 情 况 下 ， 本 章 将 会 介绍 之 前 学 习 的 各 
种 协议 (比如 了 瑟 、TCP、 电 子 邮件 以 及 DNS ) 是 如 何 通 过 安全 扩展 (有 时 是 以 附加 协议 的 形 
式 ) 来 增强 安全 性 的 。 我 们 需要 为 通信 协议 中 的 “安全 ”赋予 具体 的 定义 ， 这 样 才能 方便 理 
解 一 项 技术 是 否 能 够 为 我 们 提供 预想 的 保护 。 因 此 ， 本 章 将 首先 介绍 在 信息 安全 领域 中 必 不 
可 少 的 信息 保护 的 属性 。 
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18.2 ”信息 安全 的 基本 原则 

从 信息 安全 的 角度 看 ， 无 论 是 否 在 计算 机 网 络 中 ,信息 具有 三 个 重要 的 属性 : 机 密 性 ， 
完整 性 ， 以 及 可 用 性 (又 称 “CIA 三 元 组 ”) [L01]。 这 些 属性 总 结 如 下 : 

e 机 密 性 是 指 信息 只 能 为 其 指定 的 用 户 ( 可 能 包含 处 理 系统 ) 知晓 。 

o 完整 性 是 指 信息 在 传输 完成 之 前 不 能 够 通过 未 授权 的 方式 修改 。 

e 可 用 性 是 指 在 需要 的 时 候 信息 是 可 用 的 。 

这 些 都 是 信息 的 核心 属性 ， 同 时 还 有 一 些 其 他 属性 也 是 必要 的 ， 包 括 可 认证 性 、 不 可 抵 
赖 性 以 及 可 审计 性 。 可 认证 性 是 指 一 个 经 过 身份 认证 的 组 织 或 个 体 是 不 能 够 被 其 他 个 体 假 周 
的 。 不 可 抵赖 性 是 指 一 个 个 体 所 做 出 的 任何 行为 (例如 ， 同 意 合同 的 条 款 ) 都 能 够 在 此 之 后 
得 到 证 实 ( 即 不 能 够 被 轻易 地 抵赖 掉 )。 可 审计 性 是 指 一 些 可 信 的 日 志 或 说 明 能 够 描述 信息 
使 用 的 过 程 。 这 些 日 志 是 十 分 重要 的 论据 ( 即 从 法 律 与 诉讼 的 角度 )。 

这 些 原则 最 初 适用 于 以 物理 (如 打印 ) 形式 组 织 的 信息 。 为 了 增强 对 信息 共享 、 存 储 与 
发 布 的 控制 ， 一 些 方法 比如 保险 箱 、 安 全 设施 以 及 警卫 已 经 被 使 用 了 数 千年 。 当 信息 在 一 个 
不 安全 的 环境 中 传播 时 ， 需 要 一 些 附加 技术 才能 确保 安全 。 为 了 证 明 此 点 ， 本 章 将 会 在 不 安 
全 的 信道 上 传输 信息 ， 从 而 验证 各 种 潜在 的 威胁 。 


18.3 网络 通信 的 威胁 

在 考虑 如 何 设计 并 运用 一 个 网 络 协议 时 ， 我 们 需要 保证 信息 具有 基本 的 完整 性 、 可 用 性 与 
机 密 性 。 由 于 在 不 可 控 的 网 络 (例如 Internet) 中 会 出 现 各 种 可 能 的 攻击 ， 因 此 这 是 一 项 非常 具有 
挑战 性 的 工作 。 根 据 [VK83]， 攻 击 通常 被 分 为 被 动 与 主动 两 类 。 由 于 不 同 技术 所 提供 的 安全 保 
护 依赖 于 特定 的 攻击 分 类 ， 因 此 识别 攻 
击 的 类 别 是 十 分 有 益 的 。 被 动 攻击 一 般 
会 监视 或 窃听 网 络 流量 的 内 容 ， 如 果 不 加 
以 控制 ， 它 将 会 导致 信息 未 经 授权 就 发 布 
出 去 (破坏 了 机 密 性 )。 主 动 攻击 一 般 会 
ABUR E (可 能 会 破坏 信息 的 完整 性 ) 或 
使 其 拒绝 服务 (破坏 可 用 性 )。 远 辑 上 说 ， Bi ig-1 E A 4 Rob SEEM SAGE. WRT 
这 类 攻击 是 由 “人 侵 者 ”或 敌 方 发 起 的 。 n 
图 18-1 描绘 了 这 类 攻击 的 一 般 场 景 。 Eve 可 能 会 进行 窃听 ， 而 Mallory 可 能 会 修改 

图 18-1 描 『 绘 了 个 体 Alice 与 Bob 传输 的 消息 
正 尝试 进行 通信 。 然 而 ， 出 现 了 两 个 攻击 者 一 一 Eve 与 Mallory。Eve (窃听 者 ) 只 能 够 监听 
Alice 与 Bob 之 间 交 换 的 流量 ， 因 此 她 只 能 发 起 被 动 攻击 。Mallory (恶意 攻击 者 ) 能 够 存储 、 
修改 、 重 放 Alice 与 Bob 之 间 的 通信 流量 ， 因 此 她 既 能 实施 被 动 攻击 也 能 实施 主动 攻击 。 表 
18-1 列 出 了 Alice 与 Bob 所 面 对 的 主动 攻击 与 被 动 攻击 的 大 致 分 类 。 


表 18-1 通信 攻击 广义 上 分 为 被 动 与 主动 两 类 。 被 动 攻击 一 般 较 
难 检测 出 来 ， 而 主动 攻击 一 般 较 难 进行 防御 
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从 攻击 者 的 角度 看 ， 表 18-1 简单 地 总 结 了 Eve 可 采用 的 被 动 攻击 与 Mallory 可 采用 的 主 
动 (与 被 动 ) 攻击 。Eve 能 够 窃听 (听取 ， 也 称 为 捕获 或 嗅 探 ) 流 经 Alice 与 Bob 间 的 流量 ， 
并 对 它们 进行 流量 分 析 。 捕 获 流量 可 能 会 破坏 信息 的 机 密 性 。 某 些 敏 感 的 数据 可 能 在 Alice 
与 Bob 不 知情 的 情况 下 使 Eve 受益 。 此 外 ， 流 量 分 析 能 够 检查 流量 的 一 些 特征 ， 比 如 它 的 大 
小 、 它 是 何 时 被 发 送 的， 甚至 有 可 能 识别 出 通信 的 双方 是 谁 。 虽 然 这 种 方法 没有 揭示 通信 的 
准确 内 容 ， 但 是 仍 会 导致 敏感 信息 的 泄露 。 这 些 泄露 的 信息 可 能 会 招致 更 强 有 力 的 主动 攻击 。 
E 被 动 攻击 基本 上 不 可 能 被 Alice 或 Bob 检测 出 来 ，Mallory 能 够 发 起 更 容易 被 注意 到 的 主 
动 攻击 。 这 些 攻 击 包 括 消息 流 自 改 (MSM)、 拒 绝 服务 (DoS) 以 及 伪造 关联 。 消 息 流 自 改 ( 包 
括 所 谓 的 中 间 人 攻击 ，MITM) 属于 一 类 攻击 ， 包 括 通过 任何 方式 修改 传输 中 的 消息 流 ， 比 
如 删除 、 重 新 排序 以 及 内 容 修改 。 拒 绝 服务 攻击 包括 删除 流量 ,或 生成 大 量 的 流量 来 淹没 
Alice、Bob， 以 及 他 们 之 间 的 通信 信道 。 伪 造 关 联 攻击 包括 伪装 (Mallory 伪装 成 Bob 或 Alice) 
与 重 放 ，Alice 与 Bob 之 前 的 (可靠 真实 的 ) 通信 会 从 Mallory 的 记录 中 调 出 被 重新 播放 。 
刚才 我 们 介绍 了 用 于 防御 主动 与 被 动 攻击 的 两 种 主要 方法 。 一 种 方法 是 确保 物理 安 
全 ， 只 有 可 信赖 的 个 体 才 能 够 访问 连接 Alice 与 Bob 的 通信 设施 。 这 种 方法 可 用 于 受 限 的 
环境 中 ， 但 并 不 适用 于 那些 覆盖 较 大 地 理 范 围 的 网 络 。 如 果 通 信 信 道 是 无 线 的 ， 只 采用 物 
理 方 法 显然 难以 确保 其 安全 性 。 基 于 这 些 考虑 ， 需 要 有 一 定 的 机 制 允 许 信 息 穿 越 不 安全 的 
信道 ， 并 保证 像 Eve 与 Mallory 这 样 的 敌手 将 无 功 而 返 。 这 一 机 制 就 是 加 密 。 如 果 合 理 有 
效 地 使 用 加 密 方法 ， 被 动 攻击 将 会 失效 ， 而 主动 攻击 将 能 够 被 检测 出 来 (并 在 一 定 程度 上 
被 防御 )。 


18.4 ”基础 的 加 密 与 安全 机 制 


加 密 是 为 了 满足 以 下 需求 : 在 不 安全 的 信道 上 保护 所 传输 信息 的 机 密 性 、 完 整 性 以 及 可 
认证 性 。 这 一 能 力 对 于 保护 机 密 信 息 有 着 重要 的 意义 ， 比 如 军令 、 情 报 以 及 某 些 危险 品 或 有 
价值 原料 的 秘方 。 以 原始 的 方式 进行 加 密 可 以 追溯 至 公元 前 3500 年 。 最 早 的 加 密 系统 通常 
使 用 编码 。 编 码 是 用 编码 本 上 的 数字 或 字母 来 替换 信息 中 的 单词 、 短 语 或 句子 。 编 码 本 需要 
秘密 地 保管 起 来 以 维护 通信 的 私密 性 ， 因 此 分 发 这 些 编码 本 也 需要 十 分 谨慎 。 

更 高 级 的 系统 通常 使 用 具有 替换 与 重 排 功能 的 密码 。 几 种 编码 方式 早 在 中 世纪 就 已 为 
人 所 用 ， 到 19 世纪 后 期 大 规模 的 代码 与 密码 系统 才 普遍 用 于 外 交 与 军事 通信 。 到 20 世纪 
早期 ， 加 密 系统 才 被 完整 地 建立 起 来 ， 但 直到 第 二 次 世界 大 战 爆发 它 才 迎 来 了 一 次 重大 的 飞 
跃 。 在 此 期 间 ， 机 电 加 密 设 备 ， 比 如 德国 的 ENIGMA 与 Lorenz 机 向 同盟 国 的 密码 专家 ( 密 
码 破 译 者 ) 提出 了 挑战 。 英 国 研发 了 首 批 数字 计算 机 一 一 巨人 ， 并 用 其 来 破译 Lorenz 加 密 的 
消息 。 英 国 国 家 计算 博物 馆 的 Tony Sale 率领 他 的 团队 经 过 14 年 的 努力 ， 于 2007 年 在 布 莱 
切 利 公 园 重建 了 一 台 巨 人 2 代 计 算 机 [TNMOC]。 


18.4.1 密码 系统 


虽然 传统 的 基础 加 密 主要 用 于 保护 信息 的 机 密 性 ， 但 是 其 他 属性 比如 完整 性 与 可 认证 性 
也 能 够 借助 加 密 以 及 相关 的 数学 技术 达到 。 为 了 帮助 理解 这 些 基 础 ， 图 18-2 举例 说 明了 两 
个 重要 的 加 密 算法 一 一 对 称 密 钥 与 公开 〈 非 对 称 ) 密 钥 是 如 何 工作 的 。 

图 18-2 显示 了 对 称 与 非 对称 密 钥 管理 系统 的 高 层 操 作 。 在 每 一 个 例子 中 ， 明 文 都 需要 
经 过 加 密 算法 的 处 理 才 能 够 产生 密 文 〈 杂 乱 的 文本 )。 密 钥 是 用 于 驱动 加 密 算 法 的 一 个 特殊 的 
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比特 序列 。 在 输入 相同 的 情况 下 ， 使 用 不 同 的 密 钥 会 产生 不 同 的 输出 结果 。 将 具体 加 解密 算 
法 与 支持 的 协议 、 操 作 方 法 结合 起 来 就 构成 了 一 个 密码 系统 。 在 对 称 密码 系统 中 ， 由 于 加 密 
与 解密 的 算法 相同 ， 它 们 的 密 钥 也 是 相同 的 。 在 非 对 称 密 码 系统 中 ， 每 一 个 个 体 都 拥有 一 对 
密 钥 ,包括 一 个 公 钥 与 一 个 私 钥 。 公 钥 将 被 公之于众 ， 任 何 希 望 向 这 对 密 钥 所 有 者 发 送 消 息 
的 人 都 能 够 成 功 获得 。 公 钥 与 私 钥 有 数学 上 的 关联 ， 它 们 都 是 密 钥 生成 算法 的 输出 结果 。 非 
对 称 密 钥 密码 系统 的 一 个 主要 优点 在 于 不 需要 考虑 密 钥 该 如 何 安 全 地 分 发 给 每 一 个 希望 参与 
通信 的 个 体 。 





对 称 密 钥 密码 系统 





非 对 称 (AH) 密码 系统 
图 18-2 未 加 密 的 消息 (明文 ) 经 过 加 密 算法 的 处 理 生成 加 密 的 消息 ( 密 文 )。 在 对 称 密码 系统 中 ， 加 
密 与 解密 使 用 相同 的 密 钥 。 在 非 对 称 或 公 钥 密 码 系统 中 ， 使 用 接收 者 的 公 钥 进行 加 密 而 用 它 
的 私 钥 进行 解密 ， 从 而 保证 信息 的 机 密 性 


如 果 不 知道 对 称 密 钥 (在 对 称 密码 系统 中 ) 或 私 钥 (在 公 钥 密码 系统 中 )， 任 何 第 三 方 在 截 
获 密 文 后 (被 认为 ) 无 法 生成 相应 的 明文 。 这 一 点 为 维护 信息 的 机 密 性 提供 了 基础 。 对 于 对 称 
密 钥 密码 系统 而 言 ， 它 也 提供 了 一 定 程 度 的 认证 功能 。 因 为 只 有 拥有 密 钥 的 一 方 生成 的 密 文才 
能 够 被 解密 成 符合 语义 的 明文 。 接 收 者 可 以 将 密 文 解密 ， 然 后 从 解密 后 的 明文 中 找 出 一 个 特定 
的 协商 数值 ， 并 根据 它 判 断 发 送 者 是 否 拥有 匹配 的 密 钥 ， 从 而 最 终 完 成 认证 过 程 。 此 外 ， 绝 大 
多 数 的 加 密 算 法 还 具有 下 述 功能 : 如 果 消 息 在 传输 的 过 程 中 被 更 改 ， 那 么 它们 在 解密 之 后 不 能 
生成 有 用 的 明文 。 因 此 ， 对 称 密码 系统 提供 了 一 种 保证 消息 可 认证 性 与 完整 性 的 方法 ， 但 是 仅 
仅 赁 借 这 种 方法 是 非常 脆弱 的 。 因 此 ， 许 多 校 验 和 计算 方法 往往 会 与 对 称 密码 系统 一 起 使 用 ， 
用 来 保证 消息 的 完整 性 。 本 章 将 会 在 介绍 完 密 码 学 的 初步 知识 后 继续 讨论 这 部 分 内 容 。 

对 称 密码 算法 通常 被 分 为 分 组 密码 (或 称 块 密码 ) 与 流 密 码 两 类 。 分 组 密码 每 次 只 对 固 
定数 目 (例如 64 或 128) 的 比特 块 进行 操作 ， 而 流 密码 将 提供 的 大 量 比特 (或 字 节 ) 作为 输 
人 并 且 会 连续 地 运行 下 去 。 多 年 来 ， 最 流行 的 对 称 密码 算法 是 数据 加 密 标 准 (DES). DES 
是 一 种 分 组 密码 ， 使 用 64 比特 的 数据 块 与 56 位 的 密 钥 。 最 终 ， 使 用 56 位 密 钥 的 DES MU 
为 并 不 安全 ,许多 应 用 都 采用 了 3 重 DES (也 被 称 作 3DES 或 TDES 一 一 利用 两 个 或 三 个 不 
同 密 钥 对 每 一 个 数据 块 进行 三 次 DES HA). SR, 无论 是 DES 还 是 3DES 都 逐渐 被 高 级 加 
密 标准 (AES) 所 取代 [FIPS197]。 很 少 有 人 记得 AES 的 原名 为 Rijndael 算法 (发音 为 “rain- 
dahl”)， 该 命名 是 为 了 纪念 它 的 发 明 者 比利时 密码 学 家 Vincent Rijmen 与 Joan Daemen, AES 
的 不 同 版 本 提供 了 长 度 不 同 的 密 钥 ， 比 如 128 位 、192 位 以 及 256 位 。 这 些 不 同 的 版 本 往往 
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在 书写 时 也 会 加 上 相应 的 扩展 名 (Bl, AES-128, AES-192 以 及 AES-256 )。 

与 对 称 密 码 密 钥 系统 相 比 ， 非 对 称 密码 系统 增添 了 一 些 有 趣 的 属性 。 假 设 Alice 是 信息 
的 发 送 者 而 Bob 是 对 应 的 接收 者 ， 而 任何 第 三 方 都 知道 Bob 的 公 钥 并 且 能 够 向 Bob 发 送 一 
条 加 密 的 消息 ,那么 只 有 Bob 才能 解密 这 条 消息 ， 因 为 只 有 Bob 自己 知道 与 他 的 公 钥 相对 应 
MAMA. i, Bob 并 不 能 保证 自己 接收 到 的 消息 就 是 真实 可 靠 的 ， 因 为 任何 人 都 能 生成 一 
条 消息 ， 然 后 用 Bob 的 公 钥 加 密 后 发 送 给 他 。 幸 运 的 是 ， 如 果 反 向 使 用 ， 公 钥 加 密 系 统 则 会 
提供 另 一 项 功能 :对 发 送 者 进行 认证 。 在 上 述 情况 下 ，Alice 用 自己 的 私 钥 加 密 了 一 条 消息 ， 
然后 将 其 发 送 给 Bob (或 其 他 任何 人 )。 使 用 Alice 的 公 钥 (已 公布 ) 任何 人 都 能 够 证 实 这 条 
消息 是 Alice 授权 的 并 且 未 被 修改 过 。 然 而 ， 由 于 任何 人 都 知道 Alice 的 公 钥 ， 所 以 这 种 方法 
没有 任何 机 密 性 可 言 。 为 了 达到 可 认证 性 、 完 整 性 与 机 密 性 ，Alice 可 以 用 自己 的 私 钥 先 对 消 
息 进 行 一 次 加 密 ， 然 后 再 用 Bob 的 公 钥 对 其 结果 进行 一 次 加 密 。 这 样 生成 的 结果 既 能 够 认证 
消息 是 否 经 Alice 授权 ， 又 能 够 保证 其 对 接收 者 Bob 的 机 密 性 。 图 18-3 描述 了 这 一 过 程 。 







不 具有 机 密 性 一 一 能 够 
被 任何 人 读 到 





不 具有 可 认证 性 一 能 够 
由 任何 人 发 送 
非 对 称 CAH) 密码 系统 
图 18-3” 非 对 称 密码 系统 能 用 于 保证 信息 的 机 密 性 (加 密 )、 可 认证 性 (数字 签名 )， 甚 至 两 者 兼顾 。 当 
兼顾 两 者 时 ， 它 所 生成 的 签名 消息 对 于 发 送 者 与 接收 者 而 言 是 具有 机 密 性 的 。 公 钥 ， 顾 名 思 
义 就 是 对 外 发 布 的 密 钥 ， 不 需要 对 其 保密 


当 公 钥 密 码 系统 “ 反 向 ”使 用 时 ， 它 提供 了 数字 签名 的 功能 。 数 字 签名 是 公 钥 密码 学 的 
重要 成 果 ， 它 可 用 于 维护 信息 的 可 认证 性 与 不 可 抵赖 性 。 只 有 拥有 Alice 私 钥 的 人 才能 够 对 
消息 进行 授权 或 以 Alice 的 身份 发 起 上 述 传输 过 程 。 

在 混合 密码 系统 中 ， 公 钥 密码 系统 与 对 称 密 钥 密码 系统 的 各 种 元 素 都 会 被 使 用 。 通 常 
情况 下 ， 公 钥 运 算 被 用 来 交换 一 个 随机 生成 的 机 密 的 (对 称 的) 会 话 密 钥 。 该 会 话 密 钥 只 用 
于 对 当前 这 一 次 传输 的 数据 进行 对 称 加 密 。i 
比 ， 对 称 密 钥 运算 所 耗费 的 计算 资源 要 少 得 多 。 如 今 绝 大 多 数 系统 都 采用 混合 型 的 方式 : A 
钥 密 码 往往 用 于 创建 个 体会 话 时 所 需 的 对 称 密 钥 。 





18.4.2 RSA 公 钥 密码 算法 

前 一 小 节 已 经 介绍 了 公 钥 密码 系统 在 数字 签名 与 保障 信息 机 密 性 方面 的 作用 。 目 前 最 
流行 的 公 钥 密码 是 RSA。RSA 这 一 名 称 是 为 了 纪念 它 的 发 明 者 Rivest、Shamir 与 Adleman 
[RSA78]。 该 密码 系统 的 安全 性 取决 于 将 一 个 大 数 分 解 成 两 个 素数 因子 的 难度 。 在 RSA 初始 


576 Fae 3 


化 阶段 ,需要 生成 两 个 大 素数 p 与 9g。 这 项 工作 首先 需要 随机 地 生成 数值 较 大 的 奇数 ， 然 后 
检验 这 些 数 是 否 为 素数 ， 直 到 找到 两 个 大 素数 为 止 。 这 两 个 素数 的 乘积 n = pg WER. m 
p 5q 的 长 度 一 般 用 比特 来 衡量 。 虽 然 目 前 推荐 n 采 用 2048 比特 的 长 度 ， 但 在 通常 情况 下 n 
的 长 度 为 1024 比特 ， 而 Sq 的 长 度 为 512 比特 。 根 据 数论 的 知识 ，B(v) 的 值 表示 整数 y 
的 欧 拉 数 。 它 表示 那些 比 vy 小 且 与 v 互 质 ( 即 最 大 公约 数 为 1 ) 的 正 整 数 的 个 数 。 根 据 RSA 
BIE, 的 构建 方法 为 O(n) = (gq - 1D)(p -1)。 

根据 B(n) 的 定义 ， 我 们 选择 RSA 的 公 钥 指数 ( 称 作 e， 表 示 加 密 )， 并 按照 关系 式 
d= e'(mod GB(n)) 得 到 一 个 私 钥 指数 ( 称 作 4， 表示 解密 ) (RAR WICK. TERK, e 
一 般 取 容易 计数 的 数值 ( 即 ， 比 特 位 为 1 的 数目 较 少 的 数 )， 比 如 65 537 (二 进 制 记 为 
10000000000000001 ) 以 便于 更 快速 地 计算 。 为 了 获得 密 文 <， 需要 使 用 公式 c= m (mod n) 
对 明文 m 进行 计算 。 为 了 从 密 文 c 中 获得 明文 m， 需要 使 用 公式 m = ch (mod n) 进行 解密 。 
一 个 RSA 公 钥 包含 了 公 钥 指数 e 与 模 n， 而 对 应 的 私 钥 则 包括 私 钥 指 数 d 与 模 mn。 

WAT CATIA, 通过“ 反 向 ”使 用 公 钥 算法 (比如 RSA) 能 够 对 信息 进行 数字 签名 。 为 了 
对 一 条 消息 m 进行 RSA 数字 签名 ， 可 以 通过 公式 s = m’ (mod n) 计算 s 的 数值 作为 m HE 
名 。 任 何 接收 到 的 人 能 够 使 用 公有 元 素 e 与 公式 m = s (mod n) 来 进行 检验 。 这 样 就 能 够 
验证 生成 数值 s 的 是 RSA 的 私有 值 4 (否则 根据 s 重新 计算 的 m 值 将 不 同 于 原 值 )。 

RSA 的 安全 性 是 基于 对 大 数 分 解 因数 的 困难 性 。 根 据 RSA 的 内 容 与 图 18-1 中 的 场景 ， 
Eve 能 够 获得 n 5j e, 但 是 她 并 不 知道 p、g 与 B(n)。 如 果 她 能 够 决定 这 三 个 数值 中 的 任何 一 
个 ,那么 使 用 上 述 的 公式 关系 来 获得 d 的 值 就 变 得 很 简单 。 然 而 ， 这 样 做 需要 对 n 进行 因数 
分 解 。 目 前 ,普遍 认为 即使 是 最 好 的 分 解 因 数 算法 也 不 能 成 功 地 分 解 1000 位 或 更 多 位 的 大 
数 。 事 实 上 ， 分 解 半 素数 (由 两 个 素数 构建 的 数 ) 是 上 述 算法 中 最 困难 的 一 种 情况 。 


18.4.3  Diffie-Hellman-Merkle 密 钥 协商 协议 


通信 双方 通过 协商 制定 一 套 秘密 的 比特 序列 作为 对 称 密 钥 是 安全 协议 的 共同 需求 。 在 一 
个 被 监听 的 网 络 中 完成 上 述 工作 是 非常 困难 的 挑战 。 因 为 找 出 一 种 方法 帮助 通信 双方 (比如 
Alice 与 Bob) 在 窃听 者 〈 比 如 Eve) 不 知情 的 状况 下 完成 共同 密 钥 的 协商 并 不 是 一 件 容 易 的 
事情 。Diffie-Hellman-Merkle 密 钥 协商 协议 (通常 简称 为 Diffie-Hellman 或 DH) 提供 了 完成 
上 述 工作 的 一 种 在 有 限 域 上 的 计算 方法 [DH76]“。DH 技术 已 用 于 许多 与 互联 网 相关 的 安全 
协议 [RFC2631]， 并 且 与 公 钥 密码 系统 的 RSA 方法 紧密 相关 。 下 面 将 简单 介绍 DH 是 如 何 工 
作 的 。 

假设 所 有 人 (Alice, Bob 等 ) 都 有 相同 的 特征 ， 并 且 知 道 两 个 整数 bp 与 9。p 是 一 个 (K) 
RA, Mig 是 模 p 的 原 根 (g<p)。 在 上 述 前 提 下 ,集合 Z= {1,.…, p- 1} 中 的 每 一 个 整数 都 
能 够 通过 不 断 地 增加 g 来 生成 。 换 一 种 说 法 ， 对 于 任意 一 个 整数 n， 必 定 存在 倍数 使 式 子 
g = n (mod p) 成 立 。 在 给 定 g.n 与 p 的 情况 下 寻找 合适 的 上 值 被 认为 是 一 件 困难 的 事情 ( 称 
为 离散 对 数 问题 )， 因 此 DH 协议 也 被 认为 是 安全 的 。 在 给 定 g、k 与 p 的 情况 下 找 出 的 值 
是 非常 容易 的 ， 从 而 保障 了 这 种 方法 能 够 付 诸 实践 。 

为 了 建立 一 个 共享 的 安全 密 钥 ，Alice 与 Bob 可 以 使 用 下 面 的 协议 : Alice 选择 一 个 秘密 
的 随机 数 a， 并 按照 公式 4 = g* (mod p) 计算 出 4 的 值 ， 然 后 将 这 个 值 发 送 给 Bob. Bob 选择 


日 ”该 技术 由 C. Cocks 记录 在 一 份 1973 年 的 机 密 文献 中 ,“A Note on ‘ Non-Secret Encryption "”。 人 参见 http:// 
www.cesg.gov.uk/publications/media/notense.pdf, 
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一 个 秘密 的 随机 数 b， 并 按照 公式 B= 9° (mod p) 计算 出 B 的 值 ， 然 后 将 这 个 值 发 送 给 Alices 
Alice 与 Bob 便 达 成 了 一 个 共享 的 密 钥 K= g” (mod p)。Alice 将 按照 下 面 的 公式 计算 天 值 : 
K = B° (mod p) = g” (mod p) 
Bob 计算 天 值 的 方法 如 下 : 
K = A’ (mod p) = g” (mod p) 

由 于 g” 与 a” 是 相等 的 (因为 集合 RS OY, FF ELBE A Dr AB AGEL IE ZEB R 
#Z,), Alice 与 Bob 都 能 获得 协商 密 钥 K。 值 得 注意 的 是 ，Eve 只 能 够 获得 g、p、4 与 B， 
因此 在 解决 离散 对 数 问题 之 前 她 将 无 法 获得 密 钥 KK 的 值 [MW99]。 然 而 ， 这 一 基本 协议 在 
Mallory 的 攻击 面前 是 脆弱 的 。Mallory 能 够 假扮 成 Bob IFA AY BRAS Alice 进行 通信 ， 
RZ Mallory 可 以 用 自己 的 4 值 假扮 成 Alice 与 Bob 进行 通信 。 如 果 像 4 与 B 这 样 公开 的 数 
值 能 够 被 认证 [DOW92]， 那 么 基本 的 DH 协议 就 能 够 抵御 此 类 中 间 人 攻击 。 最 经 典 的 方法 是 
站 - 站 协议 〈 Station-to-Station protocol，STS)。 该 协议 要 求 Alice 与 Bob 对 他 们 公布 的 数值 
进行 签名 。 


18.4.4” 签 密 与 椭圆 曲线 密码 


当 使 用 RSA 时 ， 选 取 较 大 的 数值 会 提高 算法 的 安全 性 。 然 而 ，RSA 要 求 的 基本 数学 操作 
(例如 ， 指 数 运算 ) 属于 密集 型 计算 ， 并 且 其 规模 会 随 着 数值 的 增加 而 增 大 。 为 了 减少 对 信息 
同时 进行 数字 签名 与 加 密 的 工作 量 ， 可 以 采用 一 种 签 密 方 案 [Z97] (也 称 为 可 认证 的 加 密 ) 来 
兼顾 这 两 项 工作 。 签 密 方案 的 计算 量 小 于 数字 签名 与 加 密 单独 运算 的 计算 量 之 和 。 然 而 ， 如 
果 改 变 公 钥 密码 系统 的 数学 基础 ， 那 么 加 密 算法 可 能 会 达到 更 高 的 运行 效率 。 

” 后续 的 研究 以 提高 安全 协议 的 效率 与 性 能 为 主要 目标 。 研 究 者 已 经 制定 出 不 同 于 RSA 
的 公 钥 密码 系统 。 一 种 基于 以 下 困难 的 方法 成 为 新 的 选择 ， 即 寻找 椭圆 曲线 离散 对 数 元 素 是 
困难 的 。 它 也 被 称 作 椭 圆 曲 线 密码 系统 (ECC (Elliptic Curve Cryptography)， 注 意 别 与 纠 错 
码 ( Error-Correcting Code) 弄 泥 ) [M85] [K87] [RFC5753]。 在 达到 相同 安全 程度 的 前 提 下 ， 
ECC 所 使 用 的 密 钥 长 度 小 于 RSA 的 密 钥 长 度 (例如 ， 一 个 1024 比特 的 RSA 密 钥 的 长 度 是 
ECC 密 钥 长 度 的 6 倍 )。 因 此 ， 在 面向 相同 问题 时 ，ECC 使 得 计算 过 程 更 加 简单 ， 便 于 快速 
执行 。ECC 已 经 标准 化 并 用 于 许多 目前 RSA 仍 占据 支配 地 位 的 应 用 中 。 然 而 ，ECC 的 推广 
之 路 却 有 些 迟 缓 。 这 是 因为 ECC 的 技术 专利 还 被 Certicom 公司 所 持 有 (了 RSA 算法 也 申请 了 
专利 ， 但 是 到 2000 年 它 的 专利 已 经 失效 )。 


18.45 ” 密 钥 派生 与 完全 正 向 保密 


在 通信 双方 需要 交换 多 条 消息 的 场景 中 ， 通 常会 建立 一 个 短期 的 会 话 密 钥 来 进行 对 称 加 
密 。 会 话 密 钥 一 般 是 由 密 钥 派生 函数 (KDF) 根据 一 些 输入 而 生成 的 随机 数 (参见 下 节 )， 这 
些 输入 可 能 是 一 个 主 密 钥 或 是 之 前 的 会 话 密 钥 。 如 果 一 个 会 话 密 钥 被 破解 ， 那 么 由 该 密 钥 加 
密 的 任何 数据 也 都 会 被 破解 。 然 而 ， 在 一 个 持续 的 通信 会 话 期 间 ， 往 往 会 多 次 更 改 密 钥 (E 
MILL BA ( rekey))。 如 果 一 种 方案 能 够 保证 即使 有 一 个 会 话 密 钥 被 破解 而 由 其 他 密 钥 加 密 
的 后 续 通 信 过 程 仍然 安全 ， 那 么 就 称 该 方案 是 完全 正 向 保密 (Perfect Forward Secrecy, PFS) 
的 。 通 常情 况 下 ， 能 够 提供 完全 正 向 保密 的 方案 需要 额外 的 密 钥 交换 与 认证 过 程 ， 这 样 就 引 
入 了 新 的 开销 。 之 前 在 DH 中 介绍 的 STS 协议 就 是 一 个 很 好 的 例子 。 
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18.4.6 ” 伪 随 机 数 、 生 成 器 与 函数 族 


在 密码 学 中 ， 随 机 数 经 常 被 用 作 密 码 函 数 的 输入 ,或 者 用 于 生成 难以 猜测 的 密 钥 。 由 于 
计算 机 并 不 能 做 到 本 质 上 的 随机 ， 因 此 获得 真正 的 随机 数 是 有 难度 的 。 大 多 数 计算 机 中 把 用 
于 模拟 随机 的 数字 被 称 为 伪 随 机 数 ( pseudorandom number)。 这 些 数字 通常 并 不 是 真正 随机 
的 ,但 它们 所 表现 出 来 的 一 些 统计 特性 能 够 符合 随机 数 的 规律 (例如 ， 当 生成 许多 随机 数 时 ， 
它们 通常 均匀 地 分 布 在 一 定 范围 之 内 )。 

伪 随 机 数 一 般 通过 某 些 算法 或 称 为 伪 随 机 数 生成 器 (PseudoRandom Number Generator, 
PRNG)、 伪 随机 数 发 生 器 (PseudoRandom Generator, PRG) 的 设备 来 生成 。 简 单 的 伪 随 机 
数 生成 器 是 确定 的 。 也 就 是 说 ， 它 们 仅仅 拥有 少量 的 由 随机 种 子 初始 化 的 内 部 状态 。 一 旦 这 
些 内 部 状态 被 破解 ， 那么 伪 随 机 数 的 序列 也 能 够 确定 下 来 。 例 如 ， 如 果 输 入 的 参数 是 已 知 或 
可 猜测 的 ， 那 么 常见 的 线性 同 余 发 生 器 (Linear Congruential Generator, LCG) 算法 所 生成 
的 随机 出 现 的 数值 是 完全 可 预测 的 。 因 此 ，LCG 能 够 很 好 地 满足 某 些 程序 的 需求 〈 例 如， 用 
于 模拟 游戏 的 随机 事件 )， 但 它 远 远 没 有 达到 密码 系统 的 需求 。 

伪 随 机 函数 族 (PseudoRandom Function family, PRF) 是 指 那 些 在 算法 上 (通过 多 项 
式 时 间 算 法 ) 无 法 区 别 于 真正 随机 函数 的 函数 族 [GGM86]。PRF 是 比 PRG 更 深入 的 概念 ， 
它 能 用 于 创建 一 个 PRG。PRF 一 般 作 为 加 密 性 强 的 (或 安全 的 ) 伪 随 机 数 生 成 器 (被 称 为 
Cryptographically Strong PseudoRandom Number Generator, CSPRNG) 的 基础 。 为 了 保证 足 
够 的 随机 性 ， 密 码 应 用 程序 必须 使 用 CSPRNG 才能 满足 各 项 目标 ， 其 中 包括 生成 会 话 密 钥 。 


18.4.7 ”随机 数 与 混淆 值 


加 密 随 机 数 ( crytographic nonce) 是 在 密码 协议 中 只 使 用 一 次 的 数值 (习惯 上 我 们 称 之 为 临 
时 密 钥 ， 本 章 的 “临时 密 钥 ” 指 的 就 是 “加 密 ” 随 机 数 。 一 一 译 者 注 )。 临 时 密 钥 常用 于 认证 协 
议 ， 选 择 一 个 随机 数 或 伪 随 机 数 来 保障 时 新 性 。 时 新 性 要 求 选取 最 新 发 生 的 消息 或 操作 。 例 如 ， 
在 一 个 挑战 - 响应 协议 中 ， 服 务 器 会 为 请 求 的 客户 端 提供 一 个 临时 密 钥 ， 而 客户 端 需要 在 指定 
时 间 内 发 送 认证 资料 与 临时 密 钥 的 副本 (或 临时 密 钥 的 一 个 加 密 副 本 ) 作为 响应 。 由 于 重 放 到 服 
务 器 上 的 旧 的 认证 交换 信息 不 会 包含 正确 的 临时 密 钥 数 值 ， 因 此 这 种 方法 能 够 避免 重 放 攻 击 。 

混淆 值 ( salt value) 是 一 个 用 于 加 密 文本 中 的 随机 数 或 伪 随 机 数 ， 可 用 来 抵御 对 密 文 的 
变 力 攻击 。 蛮 力 攻击 通常 包括 反复 地 猜测 密码 、 口 令 、 密 钥 或 等 效 的 秘密 值 ， 并 验证 这 些 猜 
测 是 否 正 确 。 混 淆 值 可 以 使 蛮 力 攻击 的 验证 部 分 失效 。UNIX 系统 管理 密码 的 方法 是 其 中 最 
知名 的 例子 。 用 户 的 密码 都 经 过 加 密 存储 在 一 个 密码 文件 中 ， 所 有 用 户 都 能 够 访问 这 个 文 
件 。 用 户 在 登录 时 都 会 提供 一 个 密码 ， 该 密码 用 于 对 一 个 固定 值 进行 双重 加 密 。 加 密 结 果 将 
与 密码 文件 中 的 对 应 用 户 的 记录 进行 比较 ， 如 果 匹 配 ， 则 说 明 当 前 用 户 提供 了 正确 的 密码 。 

由 于 加 密 方法 (DES) 是 广为人知 的 ， 基 于 硬件 的 字典 攻击 可 以 事先 对 字典 中 的 许多 单 
词 用 DES 进行 加 密 (形成 一 张 彩虹 表 ， 即 密码 破解 演算 表 )， 然 后 再 将 这 些 结果 与 密码 文件 
中 的 记录 进行 比较 。 对 于 一 个 密码 而 言 ， 可 以 有 4096 种 ( 非 标准 ) 方式 将 一 个 12 位 的 伪 随 
机 数 添 加 到 DES 算法 中 ， 从 而 达到 混淆 算法 、 抵 御 攻 击 的 目的 。 对 于 性 能 升级 的 电脑 (能 够 
同时 猜测 更 多 的 数值 ) 而 言 ，12 位 的 混淆 值 是 不 够 的 ， 需 要 进一步 扩展 。 


18.48 ”加密 散 列 函数 与 消息 摘要 
之 前 研究 的 大 多 数 协 议 ， 包 括 以 太 网 、IP、ICMP、UDP 以 及 TCP， 都 通过 帧 校 验 序 列 
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(FCS, RREA, Be CRC) 来 判断 协议 数据 单元 在 传输 过 程 中 是 否 出 现 比特 错误 。 这 些 函 数 
会 在 检测 随机 错误 发 生 的 可 能 性 与 添加 FCS 值 引入 的 负载 之 间 进 行 权 衡 。 在 考虑 安全 性 时 ， 
我 们 的 兴趣 点 在 于 如 何 保证 消息 的 完整 性 。 这 不 仅 需 要 防止 随机 的 偶发 错误 ， 还 要 预防 对 消 
息 流 的 故意 自 改 攻击 。 在 图 18-1 所 示 的 场景 中 ， 消 息 很 可 能 在 网 络 传输 的 过 程 中 被 Mallory 
修改 。 普 通 的 帧 校 验 序列 函数 不 足以 达到 预防 此 类 攻击 的 目的 。 

如 果 正 确 地 使 用 一 些 特殊 功能 的 函数 ， 校 验 和 或 帧 校 验 序列 就 能 被 用 于 验证 消息 的 完整 
性 从 而 抵御 像 Mallory 这 样 的 敌人 。 这 些 函 数 被 称 为 加 密 散 列 函 数 ， 类 似 于 部 分 加 密 算法 。 
当 以 一 条 消息 M 作为 输入 时 ， 加 密 散 列 函数 的 输出 互 被 称 为 这 条 消息 的 摘要 或 指纹 H(M)。 
消息 摘要 可 以 看 作 是 一 种 功能 较 强 的 帧 校 验 序 列 。 它 不 仅 易 于 计算 ， 还 具有 下 述 特性 。 

© 原 像 不 可 计算 性 (preimage resistance): 在 给 定 摘要 H(M) 而 未 知 消息 M 的 情况 下 ， 

很 难 计算 出 消息 M 的 值 。 

e 原 像 不 相同 性 (second preimage resistance): 给 定 消息 M1 的 摘要 HM), RHA 

消息 M2 (M2 # M1) 使 它 的 摘要 与 M 的 摘要 相等 (HCM1) = H(M2)) 是 十 分 困难 的 。 

o 抗 磁 撞 性 (collision resistance): 找 出 一 对 摘要 相同 ( H(M1) = H(M2)) 而 自身 不 同 的 

消息 M1, M2 (M1 # M2) 是 十 分 困难 的 。 

如 果 一 个 散 列 函数 具备 上 述 所 有 属性 ， 那 么 当 有 两 条 消息 具有 相同 的 加 密 散 列 值 时 可 以 
断定 它们 是 同一 条 消息 。 目 前 最 通用 的 两 个 加 密 散 列 算法 是 生成 128 位 (16 字 节 ) 摘要 的 消 
息 摘要 算法 5 (Message Digest Algorithm 5, MD5 ) [RFC1321]， 以 及 生成 160 位 (20 字 节 ) 
摘要 的 安全 散 列 算法 1 (Secure Hash Algorithm 1,SHA-1)). RIE, 一 系列 基于 SHA 的 函数 ， 
称 为 SHA-2 [RFC6234]， 能 够 生成 长 度 为 224、256、384 以 及 512 位 (分 别 为 28、32、48 
以 及 64 字 节 ) 的 摘要 。 其 他 函数 目前 正在 研究 中 。 


注意 ”加密 散 列 函 数 通 常 基于 一 个 压缩 函数 f。 函 数 f 以 长 度 为 工 的 消息 作为 输入 ， 
生成 一 个 具有 抗 碰撞 性 、 长 度 确定 且 小 于 工 的 摘要 。Merkle-Damgard 结构 能 够 将 
任意 长 度 的 输入 分 割 成 长 度 为 工 的 数据 块 ， 填 充 数据 不 足 的 块 ， 利 用 压缩 函数 f 进 
行 计算 ,最 后 再 将 计算 结果 综合 起 来 。 这 样 就 构建 了 一 个 加 密 散 列 函 数 ， 它 将 一 个 
长 的 消息 作为 输入 ， 同 时 生成 一 个 具有 抗 碰撞 性 的 输出 结果 。 


在 2005 年 宣告 被 破解 ( 即 ， 两 个 不 同 的 128 字 节 的 序列 被 证 明 拥 有 相同 的 MD5 值 。) 
之 前 [WY05]，MD5 已 广泛 用 于 互联 网 协议 。SHA-1 是 另 一 种 可 用 的 散 列 函数 ， 但 是 它 被 认 
为 可 能 具有 潜在 的 脆弱 性 。 因 此 ， 相 继 开发 出 SHA-2 的 一 系列 算法 。 由 于 SHA-2 与 SHA-1 
的 相似 性 ， 它 们 被 认为 拥有 相似 的 脆弱 性 。2010 年 12 月 ， 美 国 国家 标准 与 技术 局 (NIST) 
宣布 5 种 算法 被 选 为 新 一 代 “ SHA-3” 加 密 散 列 算法 的 候选 [CHP]。 最 终 胜 选 的 算法 将 在 
2012 年 春季 揭晓 。 


18.4.9 消息 认证 码 


消息 认证 码 (简称 为 MAC， 有 时 也 称 为 MIC， 注 意 该 缩写 与 第 3 章 介绍 的 链 路 层 MAC 
地 址 无 关 ) 用 于 保障 消息 的 完整 性 。 消 息 认 证 码 一 般 基 于 有 密 钥 的 加 密 散 列 函 数 。 这 些 函 数 
类 似 于 消息 摘要 算法 (参见 18.4.8 节 )， 但 需要 一 个 私 钥 来 验证 消息 的 完整 性 ， 甚 至 也 可 能 用 
于 验证 消息 的 发 送 者 。 

消息 认证 码 可 用 于 防止 各 种 伪造 。 给 定 有 密 钥 的 散 列 函数 HCM,K)，M 为 输入 的 消息 ,，K 
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是 密 钥 ， 抵 御 选 择 性 伪造 意味 着 敌 方 在 不 知道 密 钥 天 的 情况 下 对 指定 的 消息 M 生 成 散 列 值 
H(M,K) 是 非常 困难 的 。 如 果 政 方 在 没有 掌握 密 钥 天 的 情况 下 很 难 找 出 任何 之 前 未 知 的 消息 
M 与 散 列 值 H(M,K) 的 组 合 关系 ， 那 么 HMK) 被 认为 能 够 防止 存在 性 伪造 。 值 得 注意 的 是 ， 
消息 认证 码 并 不 能 提供 与 数字 签名 完全 一 样 的 特性 。 例 如 ， 它 们 并 不 能 为 不 可 否认 性 提供 坚 
实 的 基础 ， 因 为 不 止 有 一 方 知道 对 应 的 密 钥 。 

一 个 标准 的 使 用 加 密 散 列 函 数 的 消息 认证 码 被 称 为 基于 有 密 钥 散 列 的 消息 认证 码 
( HMAC) [FIPS198] [RFC2104]。HMAC“ 算 法 ”使 用 通用 的 加 密 散 列 算法 HM)。 下 面 的 公式 
定义 了 使 用 密 钥 天 对 消息 M 用 互 进行 散 列 的 方法 ( 称 为 HMAC-H)， 它 形成 t+ 字 节 的 HMAC。 

HMAC-H (K, M)'= A, (H((K © opad) || H((K © ipad) || M))) 

在 上 述 公 式 中 ，opad (外 填充 ) 是 一 个 将 数值 0x5C 重复 |K 次 的 数组 ， 而 ipad (内 填充 ) 
是 将 数值 0x36 重复 K| 次 的 数组 。 旬 是 向 量 的 异 或 运算 符 , 而 是 连接 运算 符 。 通 常 HMAC 
会 输出 一 个 长 度 固定 为 1 字 节 的 值 ， 因 此 操作 符 AM 表示 取消 息 M 最 左边 的 1 字 节 。 

细心 的 读者 会 发 现 HMAC 的 定义 是 以 H(K1 || H(K2 || M) 的 形式 将 一 个 散 列 函数 作用 于 
另 一 个 散 列 函数 ， 其 中 天 1 与 K2 分 别 为 两 个 散 列 函数 的 密 钥 。 这 种 结构 能 够 抵御 所 谓 的 扩 
展 攻 击 。 扩 展 攻击 (例如 由 Mallory 发 起 的 ) 会 选择 一 个 填充 值 ， 并 将 其 与 拦截 下 的 消息 结 
合 起 来 生成 新 的 摘要 ， 这 样 就 扩展 成 了 一 条 具有 正确 摘要 值 的 新 消息 (然而 ， 这 条 消息 并 不 
是 由 Alice 发 出 的 )。 内 填充 与 外 填充 的 数值 并 不 重要 ， 但 是 生成 的 密 钥 K 与 K2 需要 有 较 
大 的 差别 ( 即 ， 它 们 拥有 较 大 的 汉 明 间距 )。 一 些 扩展 攻击 已 被 证 明 对 于 形式 为 H(KIIM) 或 
H(MIIK) 的 消息 认证 码 是 有 效 的 ,但 对 于 HMAC 结构 (或 NMAC 结构 [BCK96], HMAC 的 
一 种 衍生 版 本 ) 却 不 能 奏效 [B06]。 

近年 来 ,一 些 其 他 形式 的 消息 认证 码 已 经 被 标准 化 ， 比 如 基于 密码 的 消息 认证 码 
(CMAC) [FIPS800-38B]、GMAC ( Galois 消息 认证 码 ) [NIST800-38D]。 这 些 新 的 标准 不 再 
使 用 HMAC 的 加 密 散 列 函 数 ， 而 是 使 用 分 组 密码 ， 比 如 AES 或 3DES。CMAC 是 针对 方便 
使 用 分 组 密码 的 环境 而 设计 的 。 这 样 就 取代 了 原先 的 散 列 函 数 。 根 据 [RFC4493]，CMAC 使 
用 的 是 AES-128 算法 ， 因 此 被 称 为 AES-CMAC。 本 质 上 看 ，CMAC 利用 密 钥 天 按照 AES- 
128 算法 对 消息 块 进行 加 密 ， 将 加 密 的 结果 与 其 他 子 块 进行 异 或 操作 ， 然 后 再 对 异 或 后 的 结 
果 进 行 加 密 。 加 密会 不 断 地 重复 这 一 过 程 ， 直 到 所 有 的 消息 块 都 处 理 完毕 。 这 样 最 终 的 输出 
结果 就 是 加 密 的 结果 。 如 果 最 终 消息 块 的 长 度 仍 然 是 算法 中 数据 块 长 度 的 数 倍 ， 那 么 还 需 
要 借助 一 个 子 密 铀 来 生成 最 终 的 加 密 结果 。 这 个 子 密 钥 是 根据 特殊 的 子 密 钥 生 成 算法 由 密 
钥 天 衍生 出 的 [IK03]。 如 果 与 上 述 情 况 不 相同 ， 输 出 的 消息 块 首先 会 被 填充 ， 然 后 由 另 一 
个 子 密 钥 (同样 也 是 由 天 衍生 出 来 的 ) 加 密生 成 最 终 的 结果 。Galois 消息 认证 码 采 用 了 AES 
算法 的 一 种 特殊 模式 ， 称 为 Galois/ 计数 器 模式 。 它 仍然 使 用 一 个 有 密 钥 的 散 列 函数 ( 称 为 
GHASH， 并 不 是 一 个 加 密 散 列 函 数 )。 下 一 节 将 会 继续 介绍 更 多 的 加 密 操作 模式 。 


18.4.10 加密 套件 与 密码 套件 

前 文 已 经 介绍 了 在 不 安全 的 通信 网 络 中 保证 信息 机 密 性 、 可 认证 性 与 完整 性 的 各 种 机 
制 。 如 果 选 择 其 他 合适 的 数学 或 加 密 技 术 ， 也 能 够 达到 上 述 这 些 功能 (例如 ， 不 可 抵赖 性 )。 
一 些 特殊 的 系统 ， 尤 其 是 前 文 介 绍 过 的 互联 网 协议 ， 会 结合 使 用 多 种 技术 。 这 些 技术 被 称 为 
加 密 套 件 〈cryptographic suite) 或 密码 套件 (cipher suite)。 第 一 个 名 称 描述 得 更 加 准确 。 一 
个 加 密 套件 的 定义 不 仅仅 是 加 密 算法 ， 还 包括 了 特殊 的 消息 认证 码 算法 、 伪 随机 函数 族 、 密 
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钥 协 商 算法 、 数 字 签 名 算法 ， 以 及 相关 的 密 钥 长 度 与 参数 。 

许多 定义 的 加 密 套 件 都 被 用 于 安全 协议 。 通 常 ， 一 个 加 密 算 法 通过 它 的 名 字 与 描述 指 
定 ， 比 如 密 钥 的 长 度 为 多 少 位 (一 般 为 128 位 )， 以 及 使 用 何 种 运行 模式 。 用 于 互联 网 协议 
的 加 密 算法 已 经 完成 了 标准 化 ， 其 中 包括 AES、3DES、NULL [RFC2410] 以 及 CAMELLIA 
[RFC3713]。NULL 加 密 算法 不 对 输入 进行 任何 修改 ， 一 般 用 于 对 机 密 性 没有 要 求 的 情况 。 

加 密 算法 (尤其 是 分 组 密码 ) 的 运行 模式 描绘 了 如 何 使 用 加 密 函 数 与 密 钥 来 对 一 条 完整 
的 消息 进行 加 解密 。 上 述 这 些 加 密 函 数 通 常 将 一 个 数据 块 作为 输入 ， 通 过 不 断 地 调用 加 密 函 
数 (例如 ,级 联 )， 才 能 完成 消息 的 加 解密 工作 。 今 天 ， 常 见 的 模式 包括 密码 块 链接 (CBC) 
与 计数 器 (CTR) 等， 当然 还 有 许多 其 他 的 定义 模式 。 当 使 用 CBC 模式 进行 加 密 时 ， 首 先 
需要 被 加 密 的 明文 块 与 之 前 的 密 文 块 进行 异 或 (XOR) 操作 (第 一 个 数据 块 与 随机 的 初始 向 
= (Initialization Vector, IV) 进行 异 或 )。 当 使 用 CTR 模式 进行 加 密 时 ， 首 先 需 要 创建 一 个 
数值 并 与 临时 密 钥 (或 初始 向 量 ) 相 结合 ， 此 后 计数 器 会 随 着 每 成 功 加 密 一 个 数据 块 而 增 1。 
结合 后 的 数值 会 被 加 密 ， 而 输出 的 结果 会 与 一 个 明文 块 进行 异 或 操作 从 而 生成 一 个 密 文 块 。 
这 一 过 程 将 会 在 上 述 成 功 加 密 的 数据 分 组 间 不 断 重 复 。 实 际 上 ， 这 种 方法 使 用 了 分 组 密码 来 
产生 密 钥 流 。 密 钥 流 是 一 个 (随机 出 现 的 ) 比特 序列 ， 通 过 与 明文 比特 序列 结合 生成 密 文 。 
本 质 上 ， 将 分 组 密码 转换 成 流 密 码 可 以 不 要 求 对 被 加 密 的 明文 进行 准确 的 填充 操作 。 

CBC 需要 一 个 连续 的 加 密 过 程 与 一 个 部 分 连续 的 解密 过 程 ， 而 计数 器 模式 允许 加 解密 完 
全 并 行 地 执行 ， 从 而 大 大 提高 了 效率 。 因 此 ， 计 数 器 模式 更 为 流行 。 此 外 ， 还 有 多 种 计数 器 模 
式 的 变 体 (例如 ,使 用 CBC-MAC 的 计数 器 模式 (CCM) 与 Galoris 计数 器 模式 (GCM)) 可 用 
于 认证 加 密 [RFC4309]。 它 们 也 可 用 于 认证 (但 不 加 密 ) 附加 的 数据 ( 称 为 认证 加 密 相 关 的 数 
据 (AEAD)) [RFC5116]。 当 使 用 认证 加 密 算法 ， 独 立 的 消息 认证 码 通 常 是 没有 必要 的 。 如 果 
AEAD 算法 操作 的 数据 对 机 密 性 没有 要 求 ， 那 么 在 这 种 退化 的 情况 下 可 以 有 效 地 生成 一 种 消息 
认证 码 (例如 ，GMAC)。 当 加 密 算法 被 指定 作为 加 密 套 件 的 一 部 分 时 ， 它 的 名 字 通 常 包括 了 
它 的 模式 ， 以 及 密 钥 的 长 度 。 例 如 ，ENCR_AES_CTR 是 指使 用 CTR 模式 的 AES-128 算法 。 

当 一 个 伪 随 机 函数 族 (PRF) 被 包含 在 加 密 套 件 的 定义 中 时 ， 它 通常 会 基于 一 个 加 密 散 
列 算法 族 (如 SHA-2 [RFC6234])， 或 一 个 加 密 消息 验证 码 (如 CMAC [RFC4434][RFC4615])。 
这 种 类 型 的 结构 一 般 包 括 了 基础 的 函数 名 称 。 例 如 ， 算 法 AES-CMAC-PRF-128 是 指 一 个 
使 用 基于 AES-128 的 CMAC 的 伪 随 机 函数 族 。 它 也 可 被 记 作 PRF_AES128 CMAC。 算 法 
PRF_ HMAC SHA! 是 指 一 个 基于 HMAC-SHA1 的 伪 随 机 函数 族 。 

在 一 个 互联 网 加 密 套 件 的 定义 中 ， 密 钥 协 商 参 数 与 DH 组 定义 相关 ， 其 他 的 密 钥 协 商 
协议 将 不 会 被 广泛 使 用 。 当 DH 密 钥 协商 协议 用 于 为 特殊 的 加 密 算 法 生成 密 钥 时 ， 需 要 保证 
生成 的 密 钥 拥有 足够 的 长 度 以 防止 危及 加 密 算 法 的 安全 性 。 因 此 ， 至 少 有 16 组 在 不 同 的 文 
本 中 与 DH 一 起 使 用 的 算法 已 经 被 标准 化 [RFC5114]。 头 5 个 组 是 在 Oakley 协议 中 指定 的 ， 
因此 被 称 为 “Oakley 组 ”[RFC2409]。Oakley 协议 之 前 曾 是 IPsec 协议 的 一 个 组 成 部 分 ， 但 
现在 已 被 废弃 。 模 指数 ( MODP) 的 组 是 基于 指数 运算 与 模 运 算 。 模 素数 的 椭圆 曲线 ( ECP) 
组 [RFC5903] 是 基于 在 Galois 域 GF(P) 上 为 素数 PP 寻 找 对 应 的 曲线 。 模 2 oD FS A] wh 
(EC2N) 组 是 基于 在 GF(2”) 域 上 为 指数 入 寻找 对 应 的 曲线 。 

有 时 加 密 套 件 的 定义 中 会 包含 签名 算法 。 该 签名 算法 可 用 于 对 各 种 数值 进行 签名 ,包括 
数据 、 消 息 验证 码 以 及 DH 的 值 。 虽然 在 一 些 环境 下 可 以 使 用 数字 签名 标准 (缩写 为 DSS， 
或 缩写 为 DSA 代表 数字 签名 算法 ) [FIPS186-3], 但 是 最 常见 的 方法 还 是 使 用 RSA 对 某 个 数 
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据 块 的 散 列 值 进行 签名 。 随 着 ECC 的 问世 ， 现 在 基于 椭圆 曲线 的 签名 也 被 许多 系统 所 支持 。 

由 于 模块 化 与 分 工 化 的 变革 ， 加 密 套件 的 概念 已 经 演变 成 互联 网 安全 协议 的 重要 内 容 。 
随 着 计算 能 力 的 不 断 发 展 ， 较 早 的 加 密 算法 与 长 度 较 短 的 密 钥 已 经 成 为 各 种 蛮 力 攻击 的 受害 
者 。 在 一 些 案例 中 ， 更 加 复杂 的 攻击 已 经 揭示 出 一 些 需 要 通过 更 换 最 根本 的 数学 或 加 密 方法 才 
能 解决 的 问题 ， 然 而 这 些 基 本 协议 的 组 织 却 不 这 么 认为 。 因 此 ， 选 取 加 密 套件 需要 综合 各 种 因 
素 ， 比 如 便利 性 、 性 能 与 安全 ， 并 独立 于 具体 的 通信 协议 。 协 议 倾向 于 以 一 种 标准 化 的 方式 使 
用 加 密 套件 的 各 个 组 成 部 分 ， 这 样 合适 的 加 密 套 件 就 会 在 恰当 的 时 机 被 “敌人 ”(snap-in)。 现 
在 ， 在 设计 协议 时 一 般 将 安全 处 理 部 分 “外 包 ” 给 拥有 一 定 密码 与 数学 经 验 的 大 型 机 构 ， 让 这 
些 机 构 单独 去 定义 一 套 安全 套件 。 虽 然 “ 艇 入 ”新 密码 组 件 的 能 力 非常 吸引 人 ， 但 是 还 需要 数 
年 的 时 间 来 对 这 些 可 接受 的 套件 进行 标准 化 与 部 署 。 鉴 于 互 操作 性 ， 通 信 的 每 一 个 参与 者 必须 
使 用 相同 的 套件 。 当 密码 套件 广泛 用 于 软件 与 硬件 系统 时 ， 这 将 成 为 一 个 巨大 的 障碍 。 


18.5 证书、 证 书 颁发 机 构 与 公 钥 基础 设施 


由 密码 技术 与 相关 数学 知识 所 支持 的 工具 (包括 数字 签名 与 加 密 算法 ) 为 构建 一 个 安全 系 
统 提 供 了 良好 的 基础 。 然 而 在 此 基础 之 上 构建 一 个 完整 的 系统 还 需要 大 量 的 后 续 工 作 。 在 构 
建安 全 协议 的 诸多 事宜 中 就 包括 如 何 安全 地 使 用 加 密 方 法 ， 怎 样 创建 、 交 换 及 撤销 密 钥 (也 称 
为 密 钥 管理 )。 密 钥 管 理 仍然 是 在 跨 多 个 管理 域 的 大 平台 上 部 署 密码 系统 的 重大 挑战 之 一 。 

与 公 钥 密码 加 密 系统 相伴 的 一 个 重要 挑战 就 是 正确 地 决定 某 个 主体 或 身份 的 公 钥 。 在 
图 18-1 的 例子 中 ， 如 果 Alice 向 Bob 发 送 自己 的 公 钥 ，Mallory 能 够 在 传输 过 程 中 将 其 修改 
为 自己 的 公 钥 。Bob (也 被 称 为 依赖 方 ) 可 能 察觉 不 到 自己 使 用 的 是 Mallory 的 公 钥 ， 而 认为 
这 是 Alice 的 公 钥 。 这 样 就 使 得 Mallory 能 够 轻易 地 扮演 Alice 的 角色 。 为 了 解决 上 述 问题 ， 
需要 用 公 钾 证 书 以 数字 签名 的 方式 将 一 个 主体 与 一 个 指定 的 公 钥 绑 定 起 来 。 乍 一 看 ， 这 种 方 
法 似乎 属于 那 种 “是 先 有 鸡 还 是 先 有 蛋 ” 的 问题 : 如 果 数 字 签 名 本 身 依赖 于 一 个 可 靠 的 公 钥 ， 
它 又 如 何 能 对 公 钥 进行 签名 呢 ? 目前 有 两 种 方法 解决 这 一 问题 。 

一 种 被 称 作 “ 信 任 网 络 ” 的 模型 ， 通 过 一 些 当前 用 户 〈 也 称 作 背书 者 ) 做 背书 的 方式 来 
证 明 一 个 证 书 (将 身份 与 公 钥 绑 定 在 一 起 ) 的 可 靠 性 。 一 名 背书 者 会 对 一 个 证 书 进 行 签 名 ， 
然后 将 其 发 布 出 去 。 随 着 时 间 的 推移 ， 如 果 一 个 证 书 有 越 来 越 多 的 背书 者 ， 那 么 它 就 越 可 
靠 。 当 某 个 个 体检 查 一 个 证 书 时 ， 可 能 需要 一 定数 量 的 背书 者 或 者 某 些 特定 的 背书 者 才能 信 
任 它 。 信 任 网 络 模型 是 分 散 的 、 没 有 中 心 的 权威 机 构 ， 因 此 它 具 有 一 定 的 “草根 ”性 。 该 模 
型 的 优 缺点 是 显而易见 的 。 首 先 ， 没 有 中 心 的 权威 机 构 ， 模 型 不 会 因为 单 点 失效 而 崩溃 ， 但 
是 这 也 意味 着 新 加 入 者 需要 经 历 相当 长 的 时 间 才 能 使 自己 的 密 钥 得 到 一 定数 量 用 户 的 背书 。 
一 些小 组 会 维护 “ 密 钥 签名 团体 ”来 加 快 这 一 过 程 。“ 信 任 网 络 ”模型 开始 是 作为 PGP(Pretty 
Good Privacy) 加 密 系 统 的 一 部 分 被 提出 的 ， 用 于 电子 邮件 [NAZ00]， 负 责 支 持 一 个 标准 的 
编码 格式 OpenPGP， 它 由 [RFC4880] 定义 。 

一 种 更 常见 的 方法 是 依靠 中 心 化 的 机 构 ， 其 中 包括 对 公 钥 基础 设施 ( Public Key 
Infrastructure, PKI) 的 使 用 。 这 一 方法 在 特定 的 理论 假设 下 更 容易 被 证 明 是 安全 的 。PKI 负责 
提供 创建 、 吊 销 、 分 发 以 及 更 新 密 钥 对 与 证 书 的 服务 。 它 需要 一 些 证 书 颁发 机 构 ( Certificate 
Authority, CA) 才能 运行 。 证 书 颁发 机 构 是 用 于 管理 与 认证 一 些 个 体 与 它们 的 公 钥 间 的 绑 定 
关系 的 实体 。 目 前 有 数 百 家 商业 证 书 颁发 机 构 。 一 个 证 书 颁 发 机 构 通 常 采用 层次 的 签名 构架 。 
这 意味 着 一 个 公 钥 可 能 会 被 一 个 父 密 钥 签名 ， 而 这 个 父 密 钥 可 能 会 被 一 个 祖父 密 钥 签 名 ， 依 
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次 类 推 。 最 终 ， 一 个 证 书 颁 发 机 构 会 拥有 一 个 或 多 个 根 证 书 ， 许 多 下 属 的 证 书 都 会 依赖 根 证 
书 来 建立 信任 。 一 个 对 证 书 与 密 钥 具 有 权威 性 的 实体 〈 例 如， 证 书 颁 发 机 构 ) 被 称 为 “信任 
锚 点 ”。 这 个 词 也 会 被 用 于 描述 证 书 或 者 其 他 与 加 密 材料 相关 的 实体 [RFC6024]。 下 文 将 会 
对 此 做 进一步 讨论 。 


18.5.1 公 角 证书、 证书 颁发 机 构 与 X.509 标准 


C 虽然 有 几 类 证 书 过 去 使 用 过 ， 但 我 们 最 感 兴趣 的 是 基于 互联 网 构架 的 ITU-T X.509 标 
准 [RFC5280]， 以 及 任何 能 够 以 多 种 文件 或 编码 格式 进行 存储 和 交换 的 特殊 证 书 。 最 常见 的 
包括 DER, PEM (Base64 编码 版 的 DER)、PKCS#7 (P7B) 以 及 PKCS#12 (PFX)。 第 8 章 
已 经 介绍 了 PKCS#1 [RFC3447] 的 使 用 情况 。 如 今 ， 互 联网 中 与 PKI 相关 的 标准 往往 会 使 用 
密码 消息 语法 [RFC5652]。 该 语法 基于 PKCS#7 的 1.5 版 本 。 在 下 面 的 例子 中 ， 我 们 将 使 用 
X.509 PEM 格式 的 证 书 ， 这 是 许多 互联 网 应 用 程序 的 默认 格式 ， 并 且 它 具有 可 以 简单 地 用 
ASCII 码 显示 的 优点 。 

证 书 主要 用 于 识别 互联 网 上 四 种 不 同类 型 的 实体 : 个 人 人、 服务器、 软件 开发 商 和 证 书 颁 
发 机 构 。 一 个 知名 的 商业 证 书 颁发 机 构 Verisign 将 所 有 证 书 进行 分 级 ， 范 围 为 1 到 5。1 级 
证 书 通常 用 于 个 人 ，2 级 证 书 用 于 组 织 ，3 级 证 书 用 于 服务 器 与 软件 ，4 级 证 书 用 于 公司 间 的 
在 线 数据 传输 ，5 级 证 书 用 于 私人 组 织 与 政府 。 不 同 的 证 书 类 别 主要 为 了 方便 对 各 种 类 型 的 
证 书 进行 分 组 与 命名 ， 以 及 为 其 定义 不 同 的 安全 策略 。 一 般 而 言 ， 高 类 别 号 表明 在 认证 一 个 
身份 (也 称 为 身份 证 明 ) 的 过 程 中 需要 采取 更 为 严格 的 控制 才能 发 布 相关 的 证 书 。 

上 述 工作 并 没有 完全 解决 在 前 文中 提 到 的 由 PKI 引 发 的 “ 鸡 与 蛋 ” 的 问题 。 在 实践 
中 ， 系 统 往往 要 求 公 钥 操 作 应 当 拥 有 知名 CA 的 根 证 书 。 这 些 根 证 书 是 在 配置 时 安装 的 ( 例 
如 ， 微 软 公 司 的 Internet Explorer 浏览 器 、Mozilia 公司 的 Firefox 浏览 器 以 及 Google 公司 的 
Chrome 浏览 器 都 能 够 访问 一 个 预先 配置 的 根 证 书 数据 库 )。 为 了 说 明 这 一 点 ,我 们 将 使 用 命 
令 来 显示 证 书 的 信息 。openssl 命令 能 够 用 于 包括 Windows 与 Linux 在 内 的 大 多 数 通 用 平台 ， 
并 允许 用 户 查 看 一 个 网 站 的 证 书 (为 了 表述 清楚 ， 一 些 行 已 被 省 略 ): 


Linuxs CDIR= ‘openssl version -d | awk ‘{print $2}’. 
Linux openssl s_client -CApath $CDIR \ 

-connect www.digicert.com:443 > digicert.out 2>1 
ac (to interrupt) 


第 一 行 命令 决定 了 本 地 系统 存储 其 预先 配置 CA 证 书 的 位 置 。 通 常 根 据 系统 的 不 同 ， 
存放 的 路 径 也 不 一 样 。 在 本 例 中 ， 目 录 的 名 称 保存 在 shell 变量 CDIR 中 。 接 着 ， 我 们 连 
接 了 域名 为 www.digicert.com 的 服务 器 的 HTTPS 端口 (443 )， 并 且 将 输出 结果 重 定向 至 
digicert.out 文件 。 第 二 条 openssl 命令 “会 打印 每 个 证 书 认证 的 实体 ， 以 及 它们 在 证 书 层次 结 
构 中 相对 于 根 证 书 的 深度 (深度 为 0 表示 服务 器 的 证 书 ， 因 此 深度 的 数值 是 从 底部 向 顶部 开 
始 计数 的 )。 该 命令 还 会 将 这 些 证 书 与 已 保存 的 证 书 颁发 机 构 的 证 书 进行 对 照 ， 以 确定 这 些 
认证 是 否 合理 。 在 上 述 情况 中 ,命令 的 “认证 返回 ”选项 置 为 0 将 表示 OK. 

Linux% grep “return code” digicert.out 

Verify return code: 0 (ok) 


digicert.out 文件 不 仅 包含 了 对 连接 服务 器 的 跟踪 记录 ， 还 对 服务 器 的 证 书 进行 了 拷贝 。 


© Windows 中 有 一 个 相似 的 命令 certutil， 该 命令 适用 于 Windows 2003 Server 及 Windows Server 2003 
Administration Tool Pack。 
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为 了 以 更 加 有 效 的 方式 获得 证 书 ， 我 们 抽取 了 证 书 中 的 数据 ， 将 其 转换 并 保存 至 一 个 PEM 
编码 的 证 书 文件 中 。 


Linux% openssl x509 -in digicert.out -out digicert.pem 


假设 证 书 按照 PEM 的 格式 保存 ， 可 以 利用 openssl 提供 的 多 种 功能 对 其 进行 操作 与 检查 。 
在 最 高 级 别 ， 证 书包 含 了 被 签名 的 数据 (也 被 称 为 TBSCertificate)、 签 名 算法 的 标识 符 以 及 签 
名 值 。 要 查看 服务 器 的 证 书 ， 可 以 使 用 以 下 命令 (为 了 表达 清楚 ， 一 些 行 被 隐藏 或 移 除 )。 


Linux% openssl x509 -in digicert.pem -text 
Certificate: 
Data: 
Version: 3 (0x2) 
Serial Number: 
02:c7:1f:e0:1d:70:41:4b:8b:a7:e2:9e:5e:58:42:b9 
Signature Algorithm: shalWithRSAEncryption 
Issuer: C=US, O=DigiCert Inc, OU=www.digicert.com, 
CN=DigiCert High Assurance EV CA-1 
Validity 
Not Before: Oct 6 00:00:00 2010 GMT 
Not After : Oct 9 23:59:59 2012 GMT 
Subject: 2.5.4.15=V1.0, Clause 5.(b)/ 
1.3.6.1.4.1.311.60.2.1.3=us/ 
1.3.6.1.4.1.311.60.2.1.2=Utah/ 
serialNumber=5299537-0142, 
C=US, ST=Utah, L=Lindon, O=DigiCert, Inc., 
CN=www.digicert.com 
Subject Public Key Info: 

Public Key Algorithm: rsaEncryption 

RSA Public Key: (2048 bit) 

Modulus (2048 bit): 
00:d1:76:0b:1le:4e:96:d2:08:c1:b8:75:bd:20:9c: 
66:7£:42:6b:54:8b:7£:7a:4a:£8:3e:d£:70:68:1f: 
25:7b:40:e9:e3:cc:a2:0d:95:29:£4:08:ed:50:16: 
52:11:6f:de:a0:bb:34:bc:8b:b5:60:cl:ab:e4:78: 
75:9f 

Exponent: 65537 (0x10001) 

X509v3 extensions: 

X509v3 Authority Key Identifier: 
keyid:4C:58:CB:25:F0:41:4F:52:F4: 
28:C8:81:43:9B:A6:A8:A0:E6:92:E5 

X509v3 Subject Key Identifier: 
4F:E0:97:FF:C1:AE:06:53:03:19:F7: 
0A:37:4B:9F:F0:13:E2:88:D8 

X509v3 Subject Alternative Name: 

DNS: www.digicert.com, DNS:content.digicert.com 

Authority Information Access: 

OCSP - URI:http://ocsp.digicert.com 

CA Issuers - URI: 

http://www.digicert.com/CACerts/ 
DigiCertHighAssuranceEVCA-1.crt 

Netscape Cert Type: 

SSL Client, SSL Server 

X509v3 Key Usage: critical 
Digital Signature, Key Encipherment 

X509v3 Basic Constraints: critical 
CA: FALSE 

X509v3 CRL Distribution Points: 
URI:http://crl3.digicert.com/ev2009a.crl 
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URI:http://crl4.digicert.com/ev2009a.crl 
X509v3 Certificate Policies: 
Policy: 2.16.840.1.114412.2.1 
CPS: http://www.digicert.com/ssl-cps-repository.htm 
User Notice: 
Explicit Text: 


X509v3 Extended Key Usage: 
TLS Web Server Authentication, 
TLS Web Client Authentication 
Signature Algorithm: shalWithRSAEncryption 
el:e6:dd:0e:23:5f£:08:9a:63:63:c7:al:£3:95:f0:ca:7e:3c: 
57:81:2c:2a:19:2b:24:fe:e4:26:bd:91:27:7c:11:50:35:e7: 


~ 


£d:64:6£:97:8b:15:fb:dl:7a:£7:67:80:da:da:41:d8:e3:f9: 
e4:bd:92:97 


MIIHLTCCBhWgAwIBAgIQAsc£4B1lwQUuLp+KexX LhCuTANBgkqhkiG9w0BAQUFADBp 
MOswCQYDVQQGEWJVUZEVMBMGA 1UEChMMRG1naUN1cnQgSW5 jMRkwFwYDVQQLEXB3 


8+qQ0wF /xY9rHM0+elqy3da4AFhfw4sAmyafs7hcEMjJUAkS6Yb0qIw8ud/1kb5eL 
FfvRevdngNraQdjj+eS9kpc= 


该 命令 的 输出 结果 (BEGIN CERTIFICATE 与 END CERTIFICATE 之 间 指 示 的 内 容 ) 首 
先 显示 了 采用 ASCH 码 (PEM) 表示 的 证 书 ， 然 后 给 出 了 证 书 解 码 后 的 版 本 。 解 码 后 的 证 书 
包括 了 数据 部 分 与 签名 部 分 。 在 数据 部 分 中 是 一 些 元 数据 ， 包 括 一 个 版 本 字段 ， 用 于 表示 特 
定 的 X.509 证 书 类 型 (数值 为 3， 最近 一 般 用 十 六 进 制 表示 为 0x02 ); 一 个 特定 证 书 的 序列 号 ， 
它 是 由 证 书 颁 发 机 构 分 配给 每 一 个 证 书 的 唯一 编号 ; 一 个 有 效 期 (Validity) 字段 ， 表 明 在 某 
一 段 时 间 内 证 书 被 认为 是 合法 的 ， 它 以 Not Before 子 域 作为 开始 ， 并 以 Not After 子 域 作为 结 
束 。 证 书 的 元 数据 还 会 指明 采用 哪 一 种 签名 算法 对 数据 部 分 进行 签名 。 本 例 首 先 利 用 SHA-1 
算法 计算 出 一 个 散 列 值 ， 然 后 再 使 用 RSA 算法 进行 签名 。 签 名 的 结果 将 会 在 证 书 末 尾 显示 。 

发 行者 (Issuer) 字段 用 于 指明 发 行 证 书 的 实体 的 不 同名 称 〈 术 语源 自 ITU-T X.500 标 
准 )， 并 拥有 以 下 特殊 的 子 域 (根据 X.501 标准 ): C (国家 )、L (地 区 或 城市 ).O (组 织 ) OU (组 
织 单元 )、ST ( 州 或 省 )、CN (通用 名 称 )。 此 外 ， 还 定义 了 许多 其 他 子 域 。 本 例 还 使 用 了 一 
个 扩展 认证 的 (EV) [CABF09] CA 证 书 来 对 服务 器 的 证 书 进行 签名 。 

扩展 认证 的 证 书 (EV 证 书 ) 是 业界 对 一 些 钓 鱼 攻击 做 出 的 回应 。 这 些 钓鱼 攻击 包括 那些 
不 经 过 严格 的 身份 验证 就 发 布 证 书 的 恶意 网 站 。EYV 证 书 的 颁发 必须 严格 遵守 一 套 经 过 商定 
的 标准 。 用 户 使 用 EV 证 书 和 一 个 现代 浏览 器 访问 网 站 时 ， 通 常会 看 到 一 个 绿色 的 标题 栏 ， 
同时 CA 信息 也 会 显示 一 个 更 加 严格 的 标准 。 置 于 CA 之 上 的 EV 证 书 必 须 提 供 一 个 认证 业 
务 规则 ( Certification Practice Statement，CPS)， 以 描述 颁发 证 书 时 的 具体 做 法 。[RFC5280] 
介绍 了 认证 业务 规则 的 作者 (以 及 适用 于 每 一 个 证 书 的 策略 与 认证 规则 )。 值 得 注意 的 是 虽然 
EV 证 书 提供 了 更 高 级 别 的 保证 (例如 ， 某 些 Web 网 站 ), 但 绝 大 多 数 用 户 并 没有 注意 到 浏览 
器 为 揭示 这 一 事实 所 提供 的 线索 [BOPSW09]。 

主题 (Subject) 字段 用 于 标识 与 当前 证 书 相 关 的 实体 ， 随 后 的 主题 公 钥 信息 (Subject 
Public Key Info) 字段 则 用 于 标识 公 钥 的 拥有 者 。 在 本 例 中 ， 主 题字 段 是 一 个 复杂 的 结构 ， 
类 似 于 发 行者 字段 包含 了 多 个 对 和 象 ID (OID) [ITUOID]。 绝 大 多 数 OID 都 会 与 具体 的 名 
称 一 起 被 编码 (MN, O, C, ST, L, CN), 但 也 有 一 些 例 外 。 这 是 因为 openssl 的 特殊 
版 本 会 打印 出 一 些 难以 理解 的 内 容 。OID 1.3.6.1.4.1.311.60.2.1.3 也 被 称 为 “国家 名 称 域 ” 
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( jurisdictionOfIncorporationCountryName), Mi OID 1.3.6.1.4.1.311.60.2.1.2 则 被 称 为 “ 州 或 省 
名 称 域 ”(jurisdictionOfIncorporationStateOrProvinceName)。 这 两 个 名 称 都 有 显而易见 的 意 
Mo OID 2.5.4.15 对 应 商业 类 别 (参见 [CABF09] 了 解 细节 )。 需 要 注意 的 是 ，CN 子 域 在 鉴 
别 互联 网 上 证 书 的 主题 与 发 行者 时 变 得 越 来 越 重 要 。 本 例 的 证 书 给 出 了 与 服务 器 相 匹 配 的 正 
确 名 称 (以 及 在 主题 备用 名 称 ( Subject Alternative Name, SAN) 的 扩展 部 分 所 包含 的 名 称 )。 
如 果 在 访问 时 与 名 称 (或 表示 同一 服务 器 的 URL) 不 相 匹 配 (例如 ， 用 域名 https://digicert. 
com 代替 https:/www.digicert.com)， 则 会 导致 错误 。 值 得 注意 的 是 ，CN 并 不 是 保存 DNS 名 
称 的 字段 ， 而 SAN 则 用 于 负责 这 一 事务 。 

当 需 要 验证 一 个 证 书 时 ， 将 会 开启 一 个 递归 过 程 遍 历 证 书 的 层次 结构 直到 CA 根 证 书 。 在 
这 一 过 程 中 ， 需 要 匹配 的 发 行者 名 称 可 能 在 一 个 证 书 中 ， 而 主题 名 称 可 能 在 另 一 个 证 书 中 。 在 
这 种 情况 下 ， 证 书 是 由 高 保障 的 数字 证 书 颁发 机 构 发 布 的 (发 行者 的 CN 字段 )。 假 设 当 前 所 有 
的 证 书 都 处 于 有 效 期 并 得 到 妥善 的 使 用 ， 那 么 对 于 这 些 证 书 的 主题 字段 而 言 ， 父 证 书 〈 直 接 的 
父 证 书 、 祖 父 证 书 等 ， 但 通常 情况 下 是 CA 根 证 书 ) 也 应 该 被 认为 是 可 信 的 并 能 获得 成 功 认 证 。 

主题 公 钥 信息 字段 给 出 了 与 主题 字段 指定 的 实体 相关 的 算法 与 公 钥 。 在 这 个 例子 中 ， 公 
钥 是 一 个 模 2048 位 、 公 钥 指 数 为 65537 的 RSA 公 钥 。 主 题 拥 有 与 公 钥 配 对 的 私 钥 (加 上 私 
钥 指数 后 取 模 )。 如 果 私 钥 被 泄密 ， 或 者 因为 其 他 原因 需要 修改 公 钥 ， 公 钥 与 私 钥 必须 重新 
生成 ， 然 后 发 布 一 个 新 的 证 书 ， 并 撤销 旧 的 证 书 (参见 第 18.5.2 节 )。 

第 3 版 的 X.509 证 书 可 能 包含 0 个 或 多 个 扩展 。 这 些 扩展 有 些 是 关键 的 ， 有 些 是 不 关键 
的 ， 其 中 有 一 些 扩展 是 互联 网 模式 所 要 求 的 [RFC5280]。 如 果 是 关键 的 扩展 ， 它 的 处 理 与 建 
立 过 程 必须 被 信赖 方 (CPS 术语 ) 的 规则 所 接受 。 非 关键 的 扩展 只 要 被 支持 就 能 够 进行 处 理 ， 
但 需要 保证 不 能 产生 错误 。 本 例 中 包含 了 10 个 第 3 版 X.509 的 扩展 。 虽 然 已 经 定义 了 许多 
扩展 ， 但 我 们 正在 讨论 的 这 些 扩展 却 属于 两 个 非 正 式 的 类 别 。 第 一 个 类 别 包 含 了 与 主题 相关 
的 信息 以 及 如 何 使 用 有 问题 的 证 书 。 第 二 个 类 别 涉及 一 些 与 发 布 者 相关 的 项 目 ， 还 包括 密 
钥 标 识 以 及 指出 与 证 书 颁 发 机 构 相 关 的 附加 信息 位 置 的 URI。 本 例 中 的 证 书 是 一 个 终端 实体 
GE CA) 证 书 。CA 证 书 经 常会 包含 多 个 不 同 的 扩展 以 及 与 其 对 应 的 数值 。 

基本 约束 (Basic Constraints) 扩展 是 一 个 关键 的 扩展 。 它 指出 一 个 证 书 是 否 是 CA 证 书 。 
本 例 的 证 书 就 不 是 CA 证 书 ， 所 以 它 不 能 用 于 签名 其 他 证 书 。 如 果 一 个 证 书 是 CATER. FB 
么 它 在 证 书 验 证 链 中 将 不 会 处 于 叶子 位 置 。 这 对 于 根 CA 证 书 或 者 其 他 签名 证 书 的 证 书 (“中 
间 ” 证 书 ， 比 如 本 例 中 的 DigiCert High Assurance EV CA-1 证 书 ) 是 共同 的 。 

主题 密 钥 标识 符 ( Subject Key Identifier) 扩展 定义 了 证 书 中 的 公 钥 。 它 允许 对 同一 主题 
所 拥有 的 不 同 密 钥 加 以 区 别 。 密 钥 用 法 (Key Usage) 扩展 是 一 个 关键 扩展 ， 它 决定 了 密 钥 的 
有 效用 途 。 可 能 的 用 法 包括 数字 签名 、 不 可 否认 性 〈 承 诺 内 容 )、 密 钥 加 密 、 数 据 加 密 、 密 钥 
协商 、 证 书签 名 、CRL 签名 (参见 18.5.2 节 )、 仅 进行 加 密 、 仅 进行 破译 。 由 于 这 种 服务 器 
证 书 主要 用 于 识别 一 条 连接 的 两 个 端点 以 及 加 密 一 个 会 话 密 钥 (参见 18.9 节 )， 就 像 这 个 例 
子 中 ， 它 的 用 途 可 能 是 有 限 的 。 扩 展 的 密 钥 用 法 (Extended Key Usage) 扩展 可 以 作为 关键 的 
扩展 ， 也 可 以 作为 非 关键 的 扩展 ， 它 可 能 会 对 密 钥 的 用 途 做 出 更 严格 的 限制 。 在 互联 网 模式 
下 这 一 扩展 的 可 能 值 包括 以 下 内 容 : TLS 客户 端 与 服务 器 的 身份 验证 、 可 下 载 代码 签名 、 电 
子 邮件 保护 (不 可 抵赖 性 和 密 钥 协商 或 加 密 )、 各 种 IPsec 操作 模式 (参见 18.8 节 ) 以 及 时 间 
Bi. SAN 扩展 允许 一 个 证 书 用 于 多 种 用 途 ( 例 如， 拥有 不 同 的 DNS 名 称 的 多 个 Web 站 点 )。 
这 样 就 缓解 了 每 一 个 站 点 对 应 一 个 独立 证 书 的 需求 ， 从 而 降低 了 成 本 与 管理 的 负担 。 在 本 例 
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中 ,证 书 既 用 于 DNS 域名 www.digicert.com， 又 用 于 域名 content.digicert.com (但 不 包括 之 
前 提 到 的 域名 digicert.com)。 网 景 证 书 类 型 (Netscape Cert Type) 扩展 现在 已 经 过 时 ， 它 可 
用 于 指定 网 景 软件 的 密 钥 用 途 。 

本 例证 书 中 其 余 的 扩展 与 证 书 管理 和 状态 以 及 它 的 CA 有 关 。CRL 分 发 点 (CDP) 扩展 
给 出 了 一 个 URL 列表 ， 用 于 寻找 CA 证 书 的 撤销 列表 ( CRL)。CRL 中 列 出 了 撤销 的 证 书 ， 
用 于 确定 一 个 处 于 验证 链 中 的 证 书 是 否 已 被 撤销 (参见 18.5.2 节 )。 证 书 策略 (Certificate 
Pdlicies, CP) 扩展 包含 了 适用 于 当前 证 书 的 策略 [RFC5280]。 本 例 中 ,证书 策略 扩展 包含 一 
个 带 有 两 个 限定 的 策略 。 策 略 值 2.16.840.1.114412.2.1 指明 证 书 符合 EV 策略 。CPS 限定 给 
出 了 一 个 指针 ， 该 指针 指向 那些 符合 策略 的 特定 CPS 的 URI。 用 户 注意 事项 (User Notice) 
限定 包含 了 显示 给 依赖 方 的 文本 。 在 本 例 中 ， 它 包含 以 下 字符 串 : 

Any use of this Certificate constitutes acceptance of the DigiCert EV CPS and the Relying 
Party Agreement which limit liability and are incorporated herein by reference. 

权威 密 钥 标识 符 能 够 识别 那些 与 用 来 签名 证 书 的 私 钥 相关 的 公 钥 。 当 一 个 发 行者 拥有 多 
个 私 钥 来 生成 签名 时 ， 它 显得 十 分 有 用 。 权 威信 息 访问 (Authority Information Access, AIA) 
扩展 指明 从 哪里 能 够 检索 与 CA 相关 的 信息 。 在 本 例 中 ， 它 指出 了 一 个 URI， 用 于 决定 是 否 
使 用 一 个 在 线 的 查询 协议 来 撤销 证 书 (参见 18.5.2 节 )。 它 也 指出 了 CA 发 行者 的 名 单 ， 其 中 
包括 了 一 个 指向 为 本 例 中 服务 器 证 书签 名 的 CA 证 书 的 URL. 

扩展 部 分 后 面 是 证 书 的 签名 部 分 。 它 包含 了 签名 算法 的 标识 符 (本 例 中 为 使 用 RSA 的 
SHA-1 算法 )。 该 标识 符 必 须 与 之 前 介绍 的 签名 算法 字段 中 的 数据 保持 一 致 。 在 本 例 中 ， 签 
名 本 身 是 一 个 256 字 节 的 数值 ， 它 是 RSA 算法 进行 2048 位 模 运 算 的 对 应 结果 。 


18.5.2 ”验证 与 撤销 证 书 


前 文 已 经 介绍 了 一 个 证 书 可 能 会 被 撤销 或 者 被 一 个 新 发 布 的 证 书 所 替代 。 在 Internet T. 
程 任务 组 中 ，[RFC5280] 定义 了 根据 面向 Internet 的 X.509 版 本 2 的 证 书 撤销 列表 使 用 X.509 
版 本 3 的 方法 。 这 种 做 法 同时 也 带 来 了 证 书 如 何 被 撤销 的 问题 ， 以 及 如 何 让 依赖 方 知道 他 们 
所 依靠 的 证 书 不 再 可 信 的 问题 。 

为 了 验证 某 个 证 书 ， 需 要 建立 一 条 验证 (或 认证 ) 路 径 。 这 条 路 径 应 当 是 一 个 已 被 验证 
过 的 证 书 集合 ， 通 常会 包含 依赖 方 已 经 的 信任 锚 点 (例如 ， 根 证 书 )。 验 证 过 程 的 一 个 关键 
步骤 在 于 确定 证 书 链 中 的 一 个 或 多 个 证 书 是 否 已 被 撤销 。 若 是 ， 则 验证 路 径 将 失效 。8.5.5 节 
已 经 介绍 了 相关 的 内 容 。 

有 一 些 原因 能 够 解释 我 们 为 什么 要 撤销 一 个 证 书 ， 比 如 一 个 证 书 的 主题 (或 发 行者 ) Be 
变 了 隶属 关系 或 名 称 。 当 一 个 证 书 被 撤销 后 ， 它 将 不 再 使 用 。 我 们 所 面临 的 挑战 是 确保 希望 
使 用 证 书 的 实体 能 知道 证 书 将 被 撤销 。 在 互联 网 中 ， 有 两 种 实现 证 书 撤销 的 方法 : 证 书 撤销 
列表 (CRL) 与 在 线 证 书 状态 协议 (Online Certificate Status Protocol, OCSP) [RFC2560]. 
当 CRL 分 发 点 扩展 像 前 面 的 例子 中 一 样 包括 了 一 个 HTTP 或 FTP 的 URI 方 案 时 ， 完 整 的 
URL 给 出 了 以 DER 格式 编码 的 包含 X.509 证 书 撤销 列表 的 文件 名 称 。 在 下 面 的 例子 中 , 我 
们 可 以 利用 以 下 命令 检索 CRL 对 应 的 证 书 : 


Linux% wget http://crl13.digicert.com/ev2009a.crl 


并 使 用 以 下 命令 将 其 打印 输出 : 
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Linux’ openssl crl -inform der -in ev2009a.crl -text 
Certificate Revocation List (CRL): 
Version 2 (0x1) 
Signature Algorithm: shalWithRSAEncryption 
Issuer: /C=US/O=DigiCert Inc/OU=www.digicert.com/ 
CN=DigiCert High Assurance EV CA-1 
Last Update: Jan 2 06:20:13 2011 GMT 
Next Update: Jan 9 06:20:00 2011 GMT 
CRL extensions: 
X509v3 Authority Key Identifier: 
keyid:4C:58:CB:25:F0:41:4F:52:F4: 
28:C8:81:43:9B:A6:A8:A0:E6:92:E5 


X509v3 CRL Number: 
732Revoked Certificates: 

Serial Number: 0119BF8D1A24460EBE59355A11AD7B1C 
Revocation Date: Jul 29 19:25:40 2009 GMT 
CRL entry extensions: 

X509v3 CRL Reason Code: 
Unspecified 


Serial Number: 0D2ED685A9A828A21067D1826C5015A9 
Revocation Date: Dec 17 17:18:40 2010 GMT 
CRL entry extensions: 
X509v3 CRL Reason Code: 
Superseded 
Signature Algorithm: shalWithRSAEncryption 
d4:a3:50:07:1b:b8:17:ff:e2:83:3d:b9:6a:3e:22:8d:e4:22: 
40:12:0b:cf:26:d9:16:99:b1:96:5a:86:ea:3e:8a:3£:£9:39: 


c7:e0:92:£6:66:72:7e:a4:£0:fd:16:d4:ec:2£:10:35:ea:2d: 
45:06:19:4b 
----- BEGIN X509 CRL----- 
MI ILHeEDCCBMACAQEWDOYJKoZ IhvcNAQEFBQAwaTELMAkGA1UEBhMCVVMxFTATBgNV 
BAOTDERpZ21D2Z2XJ0IEluYzEZMBcGA1UECxMQd3d3LmRpZ21jZXJ0LmMNVbTEOMCYG 


hzcRf£+ITVZ76LtHdzWDDPFu jPyqPzMnkbGqGVsve9Gd4NcQiozOyoCDvaLezg069 
EYmMayk9zXFSaBVdEZ5Tgekrj0fFnsfgkvZmcn6k8P0W1OwvEDXqLUUGGUs= 


此 例 中 我 们 能 看 到 X.509 第 2 版 的 证 书 撤销 列表 格式 。 该 格式 与 证 书本 身 的 格式 非常 类 
似 ， 如 同 证 书 一 样 整 条 信息 都 是 由 CA 签名 的 。 由 于 证 书 撤销 列表 与 证 书 一 样 可 以 通过 不 受 
信赖 的 通信 信道 或 服务 器 进行 分 发 ， 因 此 显得 非常 实用 。 与 证 书 相 比 ， 有 效 期 将 替换 为 上 一 
个 与 下 一 个 CRL 更 新 列表 。 虽 然 没有 主题 和 公 钥 ， 但 替换 为 被 撤销 证 书 的 序列 号 ， 以 及 撤 
销 时 间 与 撤销 原因 。 还 有 一 些 独特 的 CRL 扩展 。 在 本 例 中 ， 权 咸 密 钥 标识 符 扩展 提供 了 一 
个 序号 用 于 识别 CA 在 签名 CRL 时 所 使 用 的 密 钥 。CRL 序号 扩展 将 给 出 CRL 的 序列 号 。 其 
他 数值 在 [RFC5280] 中 均 有 详细 介绍 。 

另 一 种 确定 证 书 是 否 被 撤销 的 方法 就 是 OCSP。 该 协议 是 一 个 应 用 层 的 请 求 /应答 协议 ， 
通常 运行 在 HTTP 协议 之 上 (即使 用 基于 TCP/IP 协议 的 HTTP 协议 ， 开 启 TCP 端口 号 80 )。 
一 个 OCSP 请 求 包 含 了 识别 某 个 特定 证 书 的 信息 ， 以 及 一 些 可 选 扩展 。 一 个 响应 将 指出 证 书 
处 于 未 被 撤销 、 未 知 、 被 撤销 等 状态 。 当 请 求 不 能 被 解析 或 以 其 他 方式 处 理 时 ， 将 会 返回 一 
个 错误 。 用 于 签名 OCSP 响应 的 密 钥 不 需要 与 签名 原始 证 书 的 密 钥 相 匹 配 。 发 行者 还 可 以 包 
含 一 个 密 钥 用 法 扩展 来 指明 OSCP 提供 商 的 变更 。 

为 了 观察 OCSP 请 求 /响应 的 交互 ， 一 旦 我 们 从 文件 DigiCertHighAssuranceEVCA-1.pem 
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(文件 并 没有 显示 出 来 ) 中 获得 了 相应 的 1 级 证 书 ， 就 可 以 执行 下 面 的 命令 。 为 了 表达 清楚 起 
见 ， 下 面 的 例子 省 略 了 一 些 行 。 


Linuxs CERT=DigiCertHighAssuranceEVCA-1.pem 
Linux% openssl ocsp -issuer $CERT -cert digicert.pem \ 
-url http://ocsp.digicert.com -VAfile $CERT -no_nonce -text 
OCSP Request Data: 
Version: 1 (0x0) 
Requestor List: 
Certificate ID: 
Hash Algorithm: shal 
Issuer Name Hash: B8A299F09D061DD5C1588F76CC89FF57092B94DD 
Issuer Key Hash: 4C58CB25F0414F52F428C881439BA6A8A0E692E5 
Serial Number: 02C71FE01D70414B8BA7E29E5E5842B9 
OCSP Response Data: 
OCSP Response Status: successful (0x0) 
Response Type: Basic OCSP Response 
Version: 1 (0x0) 
Responder Id: 4C58CB25F0414F52F428C881439BA6A8A0E692E5 
Produced At: Jan 2 08:03:24 2011 GMT 
Responses: 
Certificate ID: 
Hash Algorithm: shal 
Issuer Name Hash: B8A299F09D061DD5C1588F76CC89FF57092B94DD 
Issuer Key Hash: 4C58CB25F0414F52F428C881439BA6A8A0E692E5 
Serial Number: 02C71FE01D70414B8BA7E29E5E5842B9 
Cert Status: good 
This Update: Jan 2 08:03:24 2011 GMT 
Next Update: Jan 9 08:18:24 2011 GMT 


=ý 


Response verify OK 

digicert.pem: good 
This Update: Jan 2 08:03:24 2011 GMT 
Next Update: Jan 9 08:18:24 2011 GMT 


如 我 们 所 见 ，OCSP 交互 指出 证 书 是 没有 问题 的 。 请 求 包 含 了 一 个 散 列 算法 (SHA-1 ) 
的 标识 、 一 个 发 行者 名 称 的 散 列 值 、 标 识 发 行者 密 钥 的 序号 〈 与 证 书 中 的 密 钥 ID 扩展 相同 )， 
以 及 证 书 的 序列 号 。 响 应 者 通过 响应 者 ID 对 自身 进行 标识 ， 并 对 响应 做 出 签名 。 响 应 包括 
了 请 求 的 散 列 值 与 序号 ， 以 及 说 明证 书 “ 正 常 ”( 即 ， 未 被 撤销 ) 的 状态 。OCSP 协议 虽然 减 
轻 了 客户 端 下 载 并 检查 最 新 CRL 的 负担 ， 但 仍 要 求 客 户 端 形成 并 验证 整个 验证 路 径 。 在 一 
些 情况 下 ， 这 也 被 认为 是 客户 端的 负担 。 

为 了 解决 客户 端 系统 中 形成 与 验证 证 书 链 的 负担 ，[RFC5055] 定义 了 一 个 基于 服务 器 的 
证 书 验证 协议 ( Server-Based Certificate Validation Protocol，SCVP)。 然 而 ， 该 协议 尚未 得 
到 广泛 的 应 用 。 在 SCVP 协议 中 ,证书 路 径 的 形成 (也 称 为 委托 路 径 发 现 或 DPD) 以 及 验 
证 (也 称 为 委托 路 径 验证 或 DPV) 都 能 印 载 到 服务 器 上 。 验 证 将 印 载 到 可 信赖 的 服务 器 上 。 
SCVP 协议 不 仅 提供 了 一 种 减轻 客户 端 负 担 的 方法 ， 还 提供 了 一 种 确保 普通 的 验证 策略 能 够 
被 一 致 地 贯彻 于 一 个 企业 的 方法 。 


18.5.3 BEE 


除了 用 于 绑 定 名 称 与 公 钥 的 公 钥 证 书 (PKC) 之 外 , X.509 还 定义 了 另 一 种 类 型 的 证 书 ， 
称 为 属性 证 书 〈Attribute Certificate，AC)。 属 性 证 书 在 结构 上 与 公 钥 证 书 类 似 , 但 缺少 公 
钥 。 它 们 用 于 指出 一 些 其 他 信息 ， 包 括 与 相关 公 钥 证 书 拥 有 不 同 生命 期 (例如 ， 时 间 较 短 
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的 ) 的 授权 信息 [RFC5755]。 属 性 证 书 还 包含 其 他 类 似 于 公 角 证书 的 结构 ， 包 括 扩展 与 属性 
证 书 策略 。 


18.6 TCP/IP 安全 协议 与 分 层 


加 密 技术 为 建立 具有 多 项 安全 性 能 的 通信 系统 提供 了 基础 。 包 含 加密 技 术 的 协议 存在 于 
协议 栈 的 多 个 不 同 层次 。 与 第 1 章 介 绍 的 OSI 参考 模型 一 致 ， 通 过 加 密 的 方法 每 一 层 都 能 够 
提供 基本 的 加 强 安全 的 措施 。 

正如 我 们 所 预料 的 ， 链 路 层 的 安全 服务 致力 于 保护 一 跳 通 信 中 的 信息 ， 网 络 层 的 安全 服 
务 致力 于 保护 两 个 主机 之 间 传 输 的 信息 ， 传 输 层 的 安全 服务 致力 于 保护 进程 与 进程 之 间 的 通 
信 ， 应 用 层 的 安全 服务 致力 于 保护 应 用 程序 操纵 的 信息 。 在 通信 的 各 层次 中 ， 由 独立 于 通信 
层 的 应 用 来 负责 保护 数据 的 工作 也 是 可 以 的 (例如 ， 文 件 能 够 经 过 加 密 并 以 电子 邮件 附件 的 
方式 发 送出 去 )。 图 18-4 展示 了 与 TCP/IP 结合 使 用 的 最 常见 的 安全 协议 。 


层 号 层 名 称 


图 18-4 存在 于 OSI 协议 栈 中 各 层次 以 及 一 些 “ 中 间 ” 层 的 安全 协议 。 值得 注意 的 是 需要 根据 不 同 的 
安全 威胁 选择 合适 的 协议 


图 18-4 展示 了 许多 安全 协议 ， 而 那些 我 们 在 任何 时 候 都 关心 的 协议 是 由 需求 的 功能 
范围 所 决定 的 。 在 讨论 图 18-4 展示 的 大 多 数 协议 时 ， 我 们 将 会 特别 强调 IPsec 协议 (位 于 
第 3 层 的 机 器 与 机 器 之 间 的 安全 性 )、TLS 协议 〈 设 计 用 于 支持 应 用 层 的 传输 层 安 全 ) 以 及 
DNSSEC 协议 (DNS 安全 )。TLS 与 IPsec 协议 的 使 用 非常 广泛 ， 其 中 TLS 协议 用 于 所 有 的 
安全 网 站 通信 (HTTPS)， 而 IPsec 协议 用 于 大 多 数 的 网 络 层 安全 ， 包 括 VPN。DNSSEC Hh 
议 致 力 于 DNS 的 安全 (参见 第 11 章 )， 正 处 于 缓慢 的 引入 过 程 中 ， 但 预计 需求 是 巨大 的 。 
DNS 安全 将 有 助 于 限制 DNS 动 持 攻击 ， 这 样 客户 端 系统 就 不 会 被 重 定向 到 一 个 满 是 错误 
信息 的 虚假 DNS 服务 器 上 。 此 处 我 们 将 不 会 详细 讨论 两 个 十 分 流行 的 协议 : Kerberos 协议 
[RFC4120] 与 SSH 协议 [RFC4251]。Kerberos 是 一 个 应 用 于 Windows 企业 环境 的 第 三 方 认 
证 系统 ; 而 SSH 是 一 个 利用 安全 壳 进 行 远 程 登录 和 实现 隧道 功能 的 协议 ， 常 用 于 大 多 数 类 
UNIX 系统 中 。 这 些 协议 往往 被 要 求 运行 于 特定 操作 系统 的 计算 机 上 ， 即 便 这 一 要 求 并 不 是 
必需 的 。 本 章 将 会 对 所 选择 的 协议 进行 详细 的 描述 ， 我 们 认为 所 选 的 这 些 协 议 将 来 会 拥有 更 
广泛 的 互联 网 用 户 。 

虽然 几乎 每 一 项 网 络 技术 都 有 一 些 相关 的 安全 方法 ， 但 我 们 打算 从 处 于 OSI 协议 栈 最 
底 端的 链 路 层 进 行 讨 论 。 第 3 章 已 经 介绍 了 一 些 链 路 层 协议 有 其 自身 的 安全 机 制 (例如 ， 
802.11-2007 协议 在 早期 的 802.11i 规范 的 基础 上 将 WPA2 引入 其 中 )。 我 们 应 当 特 别 关注 那 
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些 能 适用 于 多 种 链 路 类 型 网 络 的 协议 。 


18.7 网 络 访问 控制 : 802.1X, 802.1AE, EAP, PANA 


网 络 访问 控制 (NAC) 是 指 对 于 特定 系统 或 用 户 而 言 用 于 授权 或 拒绝 网 络 通信 的 方法 。 
由 IEEE 定义 的 802.1X 基于 端口 的 网 络 访问 控制 (PNAC) 标准 广泛 用 于 TCP/IP 网 络 ， 为 企 
业 局 域 网 提供 安全 ， 其 中 包括 有 线 与 无 线 网 络 。PNAC 的 目的 在 于 ， 只 有 当 系 统 (或 其 用 户 ) 
起 于 网 络 接 入 点 完成 认证 后 ， 才 会 为 其 提供 网 络 访问 服务 (例如 ， 内 部 网 或 互联 网 )。 由 于 
常 与 IETF 标准 的 可 扩展 身份 验证 协议 (EAP) 配合 使 用 [RFC3748]， 所 以 802.1X 协议 有 时 
也 称 为 局 域 网 上 的 EAP 协议 (EAPoL)。 当 然 ，802.1X 标准 涵盖 的 不 仅仅 是 EAPoL 数据 包 
格式 。 

802.1X 最 常见 的 版 本 基于 2004 年 发 布 的 版 本 ， 然 而 2010 年 的 版 本 [802.1X-2010] 包 
括 了 802.1AE (IEEE 的 局 域 网 加 密 标准 ， 称 为 MACSec) 与 802.1AR (面向 安全 设备 标识 的 
X.509 证 书 )。 它 还 包括 了 一 个 比较 复杂 的 MACSec 密 钥 协商 协议 MKA (在 后 面 的 内 容 中 ， 
我 们 不 会 对 MKA 做 进一步 介绍 )。 在 802.1X 中 ， 系 统 是 通过 执行 一 个 称 为 请 求 者 的 函数 来 
进行 认证 的 。 请 求 者 通过 与 认证 者 以 及 后 端 认证 服务 器 的 交互 来 实现 认证 并 获得 网 络 访问 
权 。 虚 拟 局 域 网 (参见 第 3 章 ) 常 被 用 来 协助 802.1X 强化 对 访问 控制 的 决策 。 

可 扩展 身份 认证 协议 (EAP) 可 与 多 种 链 路 层 技 术 一 同 使 用 ， 并 提供 多 种 方法 来 实现 身 
份 验证 、 授 权 以 及 计 费 ( AAA)。EAP 本 身 并 不 执行 加 密 ， 所 以 它 必 须 与 其 他 一 些 加 密 功能 
较 强 的 协议 一 同 使 用 才能 保障 安全 。 当 与 链 路 层 的 加 密 方法 一 同 使 用 时 ， 比 如 无 线 网 络 的 
WPA2 或 者 有 线 网 络 的 802.1AE，802.1X 是 相对 安全 的 。EAP 使 用 了 与 802.1X 相同 的 申请 
者 与 认证 服务 器 的 概念 ， 但 采用 了 不 同 的 术语 (EAP 使 用 的 术语 为 :端点 ( peer)、 认 证 者 以 
及 AAA 服务器， 后 者 在 一 些 与 EAP 相关 的 文献 中 有 时 也 称 为 后 端 认 证 服务 器 )。 图 18-5 展 
示 了 一 个 具体 的 设置 实例 。 
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图 18-5 由 802.11i 与 802.1X 支持 的 EAP， 人 允许 在 隔离 AAA 服务 器 的 前 提 下 由 认证 者 对 一 个 端点 〈 申 
请 者 ) 进行 认证 。 认 证 者 能 够 按照 “直通 ”模式 来 运行 。 在 该 模式 下 ， 将 会 有 更 多 的 EAP 数据 
包 转 发 。 它 也 可 以 更 直接 地 参与 EAP 协议 。“ 直 通 ”模式 帮助 认证 者 免 于 执行 大 量 的 认证 方法 


图 18-5 假想 了 一 个 包括 有 线 与 无 线 端 点 的 企业 网 络 。 这 个 受 保 护 的 网 络 包括 了 AAA 
服务 器 、 特 殊 虚拟 局 域 网 中 的 内 网 服务 器 以 及 一 个 不 需要 认证 (或 “治理 ”) 的 虚拟 局 域 
网 。 认 证 者 负责 与 未 认证 的 端点 以 及 AAA 服务 器 进行 交互 (通过 AAA 协议 ， 例 如 RADIUS 
[RFC2865] [RFC3162]， 或 者 Diameter [RFC3588]， 以 确定 是 否 给 予 每 个 端点 访问 受 保护 网 
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络 的 权利 。 这 项 工作 能 够 通过 几 种 不 同 的 方法 来 完成 。 最 常用 的 方法 是 建立 一 个 VLAN 的 映 
射 调整 ， 这 样 被 认证 的 端点 就 会 被 分 配 到 受 保护 的 VLAN 中 ， 或 被 分 配 到 另 一 个 通过 路 由 器 
(第 3 层 ) 与 当前 VLAN 相连 的 VLAN 中 。 认 证 者 可 能 使 用 VLAN 中 继 (IEEE 802.1AX 链 路 
聚合 ， 参 见 第 3 章 )， 并 且 根 据 端 口号 分 配 VLAN 标记 或 转发 由 节点 发 送 的 VLAN 标记 的 帧 。 


注意 在 一 些 EAP 部 署 中 ， 认 证 者 并 不 使 用 AAA 服务 器 ， 而 是 自己 评估 端点 的 
证 书 。 当 谈 及 认证 是 在 何 处 被 最 终 确定 时 ，EAP 的 文献 中 会 使 用 术语 EAP 服务 器 。 
一 般 来 说 ， 当 认证 者 使 用 直通 模式 时 EAP 服务 器 是 一 个 AAA 服务 器 (后 端 认证 服 
务 器 )， 否 则 就 是 认证 者 本 身 。 


在 802.1X 中 ， 申 请 者 与 认证 者 之 间 的 协议 被 划分 为 上 下 两 层 。 底 层 的 称 作 端口 访问 控 
制 协议 (PACP)， 顶 层 的 则 通常 是 一 些 EAP 的 变种 。 为 了 与 802.1 AR 一 起 使 用 ， 变 种 被 称 
为 EAP-TLS [RFC5216]。 即 使 不 采用 EAP 认证 (例如 ， 当 使 用 MKA 时 )，PACP 也 会 使 用 
EAPOL 帧 进行 通信 。EAPoL 帧 使 用 以 太 网 类 型 (Ethertype) 字段 值 0x888E (参见 第 3 章 )。 

接 下 来 讨论 IETF 的 标准 。EAP 并 不 是 一 个 单独 的 协议 ， 而 是 一 个 通过 一 套 其 他 协议 实 
现 认证 的 框架 (其 中 一 些 协 议 我 们 在 本 章 会 介绍 ， 包 括 TLS 与 IKEv2 )。 最 基本 的 EAP 数据 
包 格 式 如 图 18-6 所 示 。 0 isig s 

EAP 数 据 包 的 格式 非常 简单 。 在 
图 18-6 中 ， 代 码 字 段 包含 了 6 种 EAP 
数据 包 类 型 之 一 : 请 求 (1)， 响 应 (2), 
成 功 (3)， 失 败 (4)， 初 始 化 (5)， 以 
及 结束 (6)。 后 两 种 类 型 是 由 EAP 重 图 18-6 EAP 头 部 包含 一 个 用 于 多 路 分 解数 据 包 类 型 





认证 协议 定义 的 (参见 18.7.2 节 )， 官 方 (请 求 、 响 应 、 成 功 、 失 败 、 初 始 化 以 及 结束 ) 
的 字段 值 是 由 IANA [IEAP] 维护 的 。 标 的 代码 字段 。 标 识 符 字段 用 于 匹配 请 求 与 响 
识 符 字段 包含 了 一 个 由 发 送 者 选择 的 序 应 。 对 于 请 求 与 响应 消息 而 言 ， 第 一 个 数据 字 
号 ， 用 于 匹配 请 求 与 响应 。 长 度 字段 给 节 是 一 个 类 型 字段 


出 了 EAP 消息 的 字 节 数 ， 其 中 代码 、 标 识 符 以 及 长 度 字 段 均 统计 在 内 。 请 求 与 响应 用 于 完 
成 对 端点 的 识别 与 认证 ， 最 终 给 出 “成 功 ”或 “失败 ”的 指示 。 该 协议 能 够 承载 一 条 信息 性 
消息 ， 以 便 人 类 用 户 能 够 获得 一 些 在 系统 无 法 认证 时 的 操作 说 明 。 底 层 协议 被 认为 是 有 序 的 
但 不 保证 可 靠 性 ， 而 EAP 是 一 个 在 底层 协议 之 上 运行 的 可 靠 协议 。EAP 本 身 并 不 执行 其 他 
功能 ， 比 如 拥塞 或 流量 控制 ， 但 可 以 使 用 其 他 协议 来 完成 这 些 工 作 。 

典型 的 EAP 交互 过 程 从 认证 者 发 送 一 个 请 求 消息 给 端点 开始 。 端 点 以 一 条 响应 消息 作 
为 回应 。 两 条 消息 使 用 相同 的 格式 ， 如 图 18-6 所 示 。 完 整 的 交互 过 程 如 图 18-7 所 示 。 

请 求 与 响应 消息 的 主要 目的 在 于 交换 实现 成 功 认 证 所 需要 的 信息 。[RFC3748] 定义 了 许 
多 方法 ， 其 他 标准 也 定义 了 一 些 方法 。 一 种 正在 使 用 的 特殊 方法 被 编码 在 请 求 与 响应 消息 
的 类 型 字段 中 ， 数 值 为 4 或 更 大 。 其 他 特殊 的 类 型 字段 值 包括 身份 (1)、 通 知 (2 )、 和 否认 
ACK (“传统 Nak”)(3) 以 及 类 型 扩展 ( 254 )。 身 份 类 型 被 认证 者 用 于 查询 端点 的 身份 信息 
并 为 端点 提供 一 种 响应 的 方法 。 通 知 类 型 用 于 为 用 户 或 日 志文 件 显示 一 条 消息 或 通知 (不 是 
错误 ， 而 是 通知 )。 当 一 个 端点 不 能 支持 认证 者 要 求 的 方法 时 ， 它 将 回复 一 个 否认 ACK (或 
者 是 传统 Nak， 或 者 是 扩展 Nak)。 扩 展 Nak 包含 了 由 已 实现 的 认证 方法 构成 的 向 量 。 这 些 
认证 方法 在 传统 Nak 中 并 未 提 及 。 
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图 18-7 基本 EAP 消息 承载 着 端点 与 认证 者 之 间 的 认证 材料 。 在 许多 部 署 中 ， 认 证 者 是 一 个 相对 简 
单 的 设备 并 采用 “直通 ”模式 。 在 这 种 情况 下 ， 绝 大 多 数 协议 的 流程 都 运行 在 端点 与 AAA 
服务 器 上 。IETF 为 特定 的 AAA 协议 制定 了 标准 ， 比 如 用 于 封装 EAP 消息 的 RADIUS 或 
Diameter。EAP 消息 在 AAA 服务 器 与 认证 者 之 间 进 行 传输 


EAP 是 一 个 支持 自身 的 多 路 复 用 与 多 路 分 解 的 分 层 体 系 结构 。 从 概念 上 讲 ， 它 包括 四 个 
层次 : 底层 (拥有 多 个 协议 )、EAP 层 、EAP 端点 /认证 者 层 以 及 EAP 方法 层 (拥有 很 多 方 ”[836 
法 )。 底 层 负 责 有 序 地 传输 EAP 帧 。 也 许 具有 讽刺 意味 的 是 ， 一 些 用 于 传输 EAP 的 协议 实 
际 上 是 更 高 层次 的 协议 。 它 们 中 的 大 多 数 在 前 文中 都 已 经 讨论 过 。EAP 底层 协议 的 实例 包括 
802.1X, 802.11 (802.111) (参见 第 3 章 )、 带 有 L2TP 的 UDP (参见 第 3 章 )、 带 有 IKEv2 的 
UDP (参见 18.8.1 节 ) 以 及 TCP (参见 第 12 ~ 17 章 )。 图 18-8 显示 了 各 层 是 如 何 结合 直通 
认证 者 实现 的 。 一 个 直通 的 服务 器 应 该 是 相反 的 ， 但 不 被 RADIUS BK Diameter 支持 。 
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a ae 
EE 


端点 直通 认证 者 AAA 服 务 器 
图 18-8 EAP 栈 与 实现 模式 。 在 直通 模式 下 ， 端 点 与 AAA 服务 器 负责 EAP 认证 方法 的 实现 。 认 
证 者 只 需要 实现 EAP 消息 处 理 、 认 证 者 处 理 ， 并 具有 足够 的 AAA 协议 (例如 RADIUS、 
Diameter) 来 与 AAA 服务 器 进行 信息 交换 
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在 图 18-8 所 示 的 EAP 栈 中 ，EAP 层 实现 了 可 靠 性 与 消除 重复 。 它 还 实现 了 基于 EAP 
数据 包 代码 值 的 多 路 分 解 。 端 点 /认证 者 层 负责 实现 端点 与 (或 ) 认证 者 协议 的 消息 ， 这 是 
基于 对 代码 字段 的 多 路 分 解 实现 的 。EAP 方法 层 包 含 了 所 有 用 于 认证 的 特殊 方法 ， 包 括 任何 
用 于 处 理 大 消息 的 协议 操作 。 由 于 其 余 的 EAP 协议 并 不 实现 分 片 ， 而 一 些 方法 又 可 能 会 要 
求 大 消息 〈( 例 如， 包含 证 书 或 证 书 链 )， 因 此 上 述 方法 是 必要 的 。 


18.7.1 EAP 方法 与 密 钥 派生 


在 EAP 的 体系 结构 下 ,许多 EAP 认证 与 封装 的 方法 都 可 以 使 用 (超过 $0 种 )。 有 一 些 
837) 被 IETF 制定 为 标准 ， 而 另 一 些 则 有 着 独立 的 发 展 过 程 〈 例 如 ，Cisco BK Microsoft 的 标准 )。 
一 些 常 用 的 方法 包括 TTLS [RFC5281], TLS [RFC5216], FAST [RFC4851] .LEAP(Cisco 专 有 )、 
PEAP (基于 TLS Hj EAP, Cisco 4#), IKEv2 ( 尚 处 于 实验 阶段 ) [RFC5106] 以 及 MD5。 
在 这 些 方法 中 ，[RFC3748] 仅 对 MDS 制定 了 规范 ， 但 现在 已 不 推荐 使 用 。 不 幸 的 是 ， 当 单 
独 指定 这 些 方法 中 的 某 一 种 时 是 非常 复杂 的 。 即 使 在 一 种 方法 中 ， 有 时 也 会 为 加 密 套 件 或 身 
份 认证 设置 不 同 的 选项 。 例 如 在 PEAP 中 ,一 些 版 本 的 Windows 操作 系统 支持 MSCHAPv2 
和 TLS。 

造成 如 此 多 选项 有 一 部 分 历史 原因 。 由 于 安全 与 运行 经 验 随 着 时 间 的 推移 而 不 断 演变 ， 
人 们 发 现 有 些 方 法 是 不 安全 的 ， 或 不 够 灵活 。 有 些 认 证 方法 要 求 运行 能 够 提供 客户 端 证 书 的 
公 钥 基础 设施 (例如 ，EAP-TLS)， 而 有 些 (例如 ，PEAP、TTLS) 并 没有 要 求 这 一 基础 设施 。 
一 些 旧 的 协议 (例如 ，LEAP) 是 在 其 他 标准 如 802.11 (结合 802.11i 标准 ) 尚未 成 熟 的 时 候 
设计 出 来 的 。 因 此 根据 具体 环境 的 不 同 ，EAP 会 选择 使 用 各 种 智能 卡 或 令 牌 、 密 码 、 证 书 的 
组 合 。 

EAP 方法 的 目的 在 于 建立 认证 ， 并 为 网 络 访问 提供 可 能 的 授权 。 在 一 些 情况 下 (例如 ， 
EAP-TLS), 一 些 方法 提供 了 双向 的 认证 ， 即 每 一 端 既 是 认证 者 又 是 端点 。 这 种 类 型 的 认证 
是 EAP 方法 采用 一 系列 加 密 基 元 的 结果 。 

一 些 方法 不 仅仅 能 提供 认证 。 那 些 提 供 密 钥 派生 的 方法 能 够 在 一 个 密 钥 层 次 结构 中 完成 
协商 与 导出 密 钥 的 工作 [RFC5247]， 并 且 必 须 实现 EAP 端点 与 服务 器 之 间 的 互相 认证 。 无 论 
是 在 EAP 端点 还 是 在 认证 服务 器 上 ， 主 会 话 密 钥 (Master Session Key，MSK， 也 称 为 AAA 
密 钥 ) 常用 于 通过 KDF 生成 其 他 密 钥 。MSK 的 长 度 至 少 为 64 字 节 ， 并 且 通 常用 于 派生 瞬时 
会 话 密 钥 (Transient Session Key, TSK). TSK 常用 在 底层 来 加 强 端点 与 认证 者 之 间 的 访问 
控制 。MSK 扩展 (EMSK) 通常 会 与 MSK 一 同 使 用 ， 但 只 适用 于 EAP 服务 器 或 端点 ， 而 不 
适用 于 直通 认证 者 。MSK 扩展 还 用 于 派生 根 密 钥 [RFC5295]。 根 密 钥 一 般 与 特定 的 用 途 或 域 
密切 相关 的 。 一 个 具有 特定 用 途 的 根 密 钥 ( Usage-Specific Root Key, USRK) 是 在 特殊 的 使 
用 环境 下 由 EMSK 派生 出 来 的 。 特 定 域 的 根 密 钥 (DSRK) 是 针对 特定 的 域 ( 即 系统 的 集合 ) 
由 EMSK 派生 而 来 。 由 DSRK 派生 出 的 子 密 钥 被 视 为 特定 域 特 定 用 途 的 根 密 钥 (Domain- 
Specific Usage-Specific Root Key, DSUSRK). 

在 一 个 EAP 交互 过 程 中 ,会 使 用 多 个 端点 与 服务 器 的 标识 符 ， 并 且 会 分 配 一 个 会 话 标 
识 符 。 在 完成 基于 EAP 且 支 持 密 钥 派 生 的 认证 中 ，MSK、EMSK 、 端 点 标识 符 、 服 务 器 标 
识 符 以 及 会 话 标识 符 将 提供 给 底层 (可 能 需要 提供 一 个 现在 已 弃 用 的 初始 化 向 量 )。 密 钥 一 
般 会 有 相关 的 生存 期 (推荐 为 8 小 时 )， 超 过 生存 期 之 后 EAP 会 要 求 重新 认证 。 关 于 EAP 密 

钥 管 理 框 架 的 进一步 讨论 以 及 相应 的 安全 分 析 细 节 ， 请 参见 [RFC5247]。 
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18.7.2 EAP 重新 认证 协议 


E EAP 认证 已 经 成 功 完成 后 ， 如 果 随 后 还 需要 进行 认证 交换 ， 那 么 通常 会 要 求 减少 
这 一 过 程 的 延迟 (例如 ， 一 个 移动 节点 从 一 个 接 和 人 点 到 另 一 个 接 入 点 )。ERP 重新 认证 协 
议 (EAP Re-authentication Protocol, ERP) [RFC5296] 提供 了 独立 于 任何 特定 的 EAP 方法 来 
完成 上 述 工作 的 能 力 。 支 持 ERP 的 EAP 端点 与 服务 器 被 分 别称 为 ER 节点 与 服务 器 。ERP 
使 用 一 个 从 DSRK (或 EMSK， 但 [RFC5295] 建议 避免 这 样 做 ) 派生 出 的 重新 认证 根 密 钥 
(rRK)， 以 及 一 个 从 TRK 派生 出 的 重新 认证 完整 密 钥 (rIK) 来 证 明 rRK 的 内 容 。 

ERP 运行 在 一 个 往返 时 间 段 中 ， 这 与 它 减少 重新 认证 延迟 的 目标 是 一 致 的 。ERP 开始 于 
一 个 完整 的 传统 EAP 交互 过 程 ， 并 假设 处 于 “本 地 ”域名 之 下 。 生 成 的 MSK 像 往常 一 样 被 
分 配给 认证 者 与 端点 。 然 而 ，rIK 与 rRK 的 数值 也 在 此 时 决定 ， 并 且 在 端点 与 EAP 服务 器 
之 间 共 享 。 这 些 数值 可 用 于 本 地 域 中 ， 以 及 为 每 一 个 认证 者 产生 的 rMSK。 当 ER 端点 移动 
到 一 个 不 同 的 域 中 时 ， 将 会 采用 不 同 的 数值 ( DS-rIK 与 DS-rTRK， 都 是 DSUSRK)。ER 服务 
器 的 域名 包含 在 ERP 消息 的 TLV 字段 中 ， 人 允许 端点 决定 自己 与 哪 一 个 服务 器 的 域 进行 通信 。 
协议 的 细节 请 参见 [RFC5296]。 


18.7.3 网络 接 入 认证 信息 承载 协议 


YK EAP, 802.1X 与 PPP 组 合 在 一 起 用 于 支持 客户 端 (在 一 些 情况 下 也 包括 网 络 ) 的 
认证 ,但 是 它们 并 不 是 完全 链 路 独立 的 。EAP 倾向 于 在 特定 的 链接 上 实现 ，802.1X 适用 于 
IEEE 802 网 络 ，PPP 使 用 点 对 点 的 网 络 模 型 。 为 了 解决 这 一 问题 ，[RFC5191]、[RFC5193] 
以 及 [RFC6345] 基于 [RFC4058] 与 [RFC4016] 所 描述 的 需求 提出 了 网 络 接 入 认证 信息 承载 
协议 ( Protocol for Carrying Authentication for Network Access，PANA)。 该 协议 作为 EAP 的 
PE, DR EAP 信息 承载 者 的 角色 。 它 使 用 UDP/IP 协议 (端口 号 716 )， 因 此 能 够 用 于 多 
种 类 型 的 链 路 ， 并 且 不 限于 点 对 点 的 网 络 模型 。 实 际 上 ，PANA 人 允许 EAP 认证 方法 用 于 任何 
链 路 层 技 术 来 确定 网 络 访问 。 

PANA 的 框架 包含 了 三 个 主要 的 功能 性 实体 : PANA 客户 端 (PANA Client，PaC)、PANA 
认证 代理 (PANA Authentication Agent，PAA) 以 及 PANA 中 继 元 件 (PANA Relay Element， 
PRE), PANA 的 用 途 通常 包含 认证 服务 器 (Authentication Server, AS) 和 执行 点 (Enforcement 
Point, EP), AS 是 一 个 通过 访问 协议 〔( 比 如 RADIUS 或 Diameter) 访问 的 常规 AAA 服务 器 。 
PAA 负责 将 认证 材料 从 PaC 传输 至 AS， 并 且 在 网 络 访问 被 批准 或 撤销 时 对 EP 进行 配置 。 上 
述 一 些 实体 可 能 位 于 同一 位 置 。 与 EAP 认证 者 和 PAA 一样，PaC 与 相关 的 EAP 端点 总 是 位 
于 同一 位 置 。 当 PaC 与 PAA 之 间 的 直接 通信 不 能 实现 时 ，PRE 可 用 于 两 者 之 间 的 中 继 通 信 。 

PANA 协议 由 一 组 请 求 / 响应 消息 构成 ， 包 括 一 个 由 属性 - 值 对 组 成 的 扩展 集合 (这 一 
集合 由 IANA 进行 管理 [IPANA])。 作 为 PANA 会 话 的 一 部 分 ，UDP/IP 数据 报 的 主要 负载 
是 EAP 消息 。PANA 会 话 包 含 4 个 阶段 : 认证 /授权 、 访 问 、 重 新 认证 以 及 终止 。 重 新 认 
证 实际 上 是 访问 阶段 的 一 部 分 。 由 于 重新 执行 基于 EAP 的 认证 ， 会话 的 生存 期 也 得 到 相应 
的 扩展 。 终 止 阶段 一 般 会 以 明确 的 方式 进入 ， 也 会 因为 会 话 超时 而 进入 (因为 生存 期 耗 尽 或 
生存 状态 检测 失败 )。PANA 会 话 通过 一 个 32 位 的 会 话 标 识 符 确定 ， 该 标识 符 包 含 在 每 一 条 
PANA 消息 中 。 

PANA 还 提供 了 一 种 可 靠 的 传输 协议 。 每 一 条 消息 都 包含 了 32 位 的 序列 号 。 发 送 者 会 
跟踪 下 一 个 发 出 的 序列 号 ， 而 接收 者 会 跟踪 下 一 个 希望 接收 的 序列 号 。 响 应 包含 了 与 对 应 请 
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求 相同 的 序列 号 。 初 始 序列 号 是 由 消息 的 发 送 者 〈 即 PaC 或 PAA) 随机 选择 的 。PANA 也 实 
现 了 基于 时 间 的 重 传 。PANA 是 一 个 弱 传 输 协 议 ， 它 按照 “等 - 停 ” 模 式 工作 ， 没 有 使 用 自 
适应 的 重 传 计时 器 ， 不 能 够 对 数据 包 进 行 重新 分 组 。 当 出 现 多 个 数据 包 丢 失 的 情况 时 ， 它 的 
重 传 计 时 器 会 以 指数 的 方式 进行 回 退 。 


18.8 第 3 层 IP 安 全 (IPsec) 


IPsec 是 一 个 集合 了 许多 标准 的 体系 结构 。 这 些 标 准 在 网 络 层 为 IPv4、IPv6 [RFC4301] 
以 及 移动 IPv6 [RFC4877] 提供 数据 源 认 证 、 完 整 性 、 机 密 性 以 及 访问 控制 。 它 还 为 两 个 通 
信 的 实体 提供 了 一 种 交换 密 钥 的 方法 、 一 个 加 密 套 件 以 及 一 种 标记 使 用 压缩 的 方法 。 通 信 
方 可 能 是 一 台 个 人 主机 ， 也 可 能 是 一 个 在 受 保护 与 不 受 保护 网 络 区 域 间 提供 界限 的 安全 网 
KX (Security Gateway, SG). Al IPsec 适用 于 以 下 应 用 ， 比 如 远程 访问 企业 局 域 网 (形成 
一 个 VPN)， 通 过 开放 的 Internet 实现 企业 内 部 各 部 分 的 安全 连接 ， 或 保证 主机 与 扮演 主机 的 
路 由 器 在 交换 路 由 信息 时 的 安全 。 当 需要 为 新 开发 的 协议 选择 一 种 安全 方案 时 ， 经 常会 选中 
IPsec [RFC5406]。 

18-9 显示 了 使 用 IPsec 能 够 完成 的 不 同 部 署 类 型 。 使 用 IPsec 的 主机 可 能 会 将 其 集成 
FIP 协议 栈 中 ， 或 者 作为 网 络 栈 下 方 其 他 协议 的 底层 驱动 ( 称 为 “协议 栈 中 的 块 ”(Bump in 
the Stack,BITS) 实现 )。 另 外 ， 它 也 可 能 存在 于 一 个 内 联 的 SG 中 ， 这 种 方式 有 时 被 称 为 “ 线 
路 中 的 块 "(Bump in the Wire, BITW) 实现 。 对 于 BITW 实现 而 言 ， 由 于 需要 远程 管理 设备 ， 
因此 在 功能 上 同时 需要 主机 与 SG 的 参与 。 这 与 路 由 器 除了 能 作为 纯 第 3 层 设 备 也 能 在 其 上 
实现 应 用 程序 和 传输 协议 的 原因 非常 类 似 (参见 第 1 章 )。IPsec 支持 组 播 通信 ， 但 我 们 会 首 
先 关 注 更 加 简单 与 普遍 的 单 播 例 子 。 


ri 本 地 IPsec 实现 










不 受 保护 的 网 络 
(Hli, Internet) 


IPsec 实现 {Y 
“协议 栈 中 的 块 ” 
IPsec 实 现 
未 实现 IPsec 的 主机 EA ss 未 实现 IPsec 的 主机 


图 18-9 IPsec 适用 于 保障 主机 与 主机 之 间 的 通信 ， 主 机 与 网 关 之 间 的 通信 ， 以 及 网 关 与 网 关 之 间 的 通 
信 。IPsec 还 支持 组 播 的 分 布 与 移动 


IPsec 的 操作 可 分 为 建立 阶段 与 数据 交换 阶段 。 建 立 阶 段 负 责 交 换 密 钥 材 料 并 建立 安全 
关联 (Security Association, SA); 数据 交换 阶段 会 使 用 不 同类 型 的 封装 构架 ， 称 为 认证 头 
(Authentication Header, AH) 与 封装 安全 负载 (Encapsulating Security Payload, ESP). IPsec 
可 用 于 不 同 的 模式 ， 比 如 隧道 模式 或 传输 模式 ， 以 保护 IP 数据 报 流 。 这 些 IPsec 组 件 都 会 使 
用 加 密 套 件 ， 而 IPsec 则 被 设计 用 于 提供 更 大 范围 的 套件 。 一 个 完整 的 IPsec 实现 包括 SA 建 
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立 协议 、AH (可 选 )、ESP 以 及 一 些 合适 的 加 密 套 件 、 配 置信 息 与 设置 工具 。[RFC6071] 总 
结 了 所 有 IPsec 组 件 的 发 展 过 程 与 当前 规范 。 

虽然 在 一 个 系统 中 可 能 实现 IPsec (这 对 IPv6 实现 来 说 是 必需 的 )， 但 是 IPsec 会 有 选择 
地 对 某 些 数据 包 进 行 操 作 ， 而 这 些 操作 都 是 基于 管理 员 所 设 定 的 策略 。 所 有 策略 都 包含 在 一 
个 安全 策略 数据 库 (Security Policy Database, SPD) 中 ， 逻 辑 上 与 每 一 个 IPsec 的 实现 相伴 。 
IPsec 还 需要 两 个 额外 的 数据 库 ， 称 为 安全 关联 数据 库 (Security Association Database, SAD) 
5 端点 认证 数据 库 (Peer Authorization Database，PAD)。 如 图 18-10 所 示 ， 当 需要 决定 该 如 
何 处 理 一 个 数据 包 时 ， 将 会 查询 这 些 数据 库 。 

以 图 18-10 中 的 SG 为 例 (略微 简化 )， 会 检查 一 个 到 达 数 据 包 的 特定 字段 (流量 选择 器 ) 
以 决定 该 数据 包 是 否 正 使 用 IPsec 并 且 拥 有 一 个 预先 存在 的 SA。 若 是 ， 则 处 理 过 程 相对 简 
单 并 且 通 常会 包含 ESP (或 AH)， 详 情 可 参见 18.8.2 节 与 18.8.3 HR. ARE, HA 
SPD 来 决定 哪 一 种 类 型 的 SA 应 该 被 建立 (如 果 有 这 种 类 型 的 话 )， 并 且 SAD 通常 会 包含 新 
SA 的 信息 。 如 果 需 要 建立 一 个 新 的 SA， 最 简单 的 方法 就 是 使 用 一 些 自动 建立 密 钥 的 协议 。 
虽然 IPsec 授权 支持 手动 密 钥 ( 即 密 钥 是 由 用 户 手 工 输入 的 )， 但 这 种 方法 不 具有 很 好 的 可 扩 
展 性 且 容 易 出 错 。 因 此 ， 在 建立 SA 时 一 般 要 求 使 用 密 钥 建 立 协议 。 对 于 IPsec 而 言 ， 下 文 
将 讨论 此 协议 的 最 新 版 本 。 


输入 
数据 包 


( 如果 是 直接 的 





绕 开 保护 
输出 输出 


图 18-10 在 一 个 安全 网 关中 ，IPsec 数据 包 的 处 理 过 程 一 般 位 于 一 个 逻辑 实体 的 第 3 层 。 该 逻辑 实体 划 
分 了 受 保护 与 未 受 保护 的 网 络 。 安 全 策略 数据 库 指示 如 何 处 理 数据 包 : 绕 开 、 丢 弃 或 者 保护 。 
保护 一 般 涉及 应 用 或 验证 完整 性 保护 或 加 密 。 管 理 者 会 配置 SPD 以 达到 预期 的 安全 目标 


18.8.1 Internet 密 钥 交换 协议 (IKEv2 ) 


使 用 IPsec 的 第 一 步 就 是 建立 一 个 SA。SA 是 在 两 个 通信 方 之 间 建 立 的 单 工 ( 单 向 ) A 
证 关联 。 如 果 IPsec 支持 组 播 ， 那么 SA 也 可 以 是 单一 发 送 者 与 多 个 接收 者 之 间 的 单 向 认证 
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关联 。 最 常见 的 情况 是 双方 之 间 的 双向 通信 ， 因 此 需要 一 对 SA 才能 有 效 地 使 用 IPsec。 可 以 
使 用 特殊 协议 Internet 密 钥 交换 (Internet Key Exchange, IKE) 自动 完成 这 项 工作 。 该 协议 
的 当前 版 本 称 作 IKEv2 [RFC5996]， 下 文 我 们 将 其 简称 为 IKE。 值 得 注意 的 是 ，IKE 是 IPsec 
较为 复杂 的 一 部 分 ， 因 此 一 旦 我 们 理解 了 它 ， 剩 下 的 部 分 将 变 得 相对 简单 。 此 外 ， 还 需要 注 
意 的 是 下 文 将 仅 讨论 IKE 作为 协议 运行 的 要 点 内 容 。 对 于 具体 细节 ， 比 如 无 数 支 持 的 加 密 套 
件 与 配置 参数 ， 读 者 可 以 自行 查阅 [RFC5996]。 

为 了 建立 一 个 SA，IKE 开始 于 一 个 简单 的 请 求 / 响应 消息 对 。 该 消息 对 包括 一 个 建立 以 
下 参数 的 请 求 : 加 密 算法 、 完 整 性 保护 算法 、Diffie-Hellman 组 ， 以 及 根据 任何 输入 的 比特 
串 随 机 生成 输出 的 PRF。 在 IKE 中 ,PRF 用 于 生成 会 话 密 钥 。 IKE 首先 为 自身 建立 一 个 SA( 称 
为 IKE SA)， 随 后 为 AH 或 ESP 建立 SA ( 称 作 CHILD_SA). IKE 还 能 够 通过 协商 为 每 一 个 
CHILD_SA #47 IP 载荷 压缩 (IPComp) [RFC3173]， 因 为 加 密 之 后 再 在 其 他 层 进行 压缩 是 无 
效 的 。 我 们 将 在 18.8.2 节 与 18.8.3 节 讨论 AH 与 ESP 的 细节 。 

IKE 的 运行 依赖 发 起 者 与 响应 者 之 间 发 送 的 消息 对 ， 这 些 消 息 对 也 称 作 交 换 。 前 两 次 交 
换 称 为 IKE_SA_INT 与 IKE_AUTH, 建立 了 一 个 IKE_SA 和 一 个 CHILD_SA。 随 后 出 现 两 个 
交换 ， 其 中 CREATE_CHILD SA 交换 用 于 建立 其 他 的 CHILD SA ; 而 INFORMATIONAL 交 
换 则 用 于 初始 化 SA 中 的 变化 或 收集 SA 的 状态 信息 。 在 绝 大 多 数 情 况 下 , 一 个 IKE_SA_INIT 
与 IKE_AUTH 交换 (总 共 4 条 消息 ) 就 足够 了 。 用 于 交换 的 消息 会 包含 由 类 型 号 标识 的 负 
载 。 类 型 号 用 于 标识 每 个 负载 中 携带 的 消息 类 型 。 一 条 消息 中 有 多 个 负载 是 常见 的 情况 ， 一 
些 较 长 的 消息 会 要 求 IP 分 片 。 

IKE 消息 封装 在 UDP 中 通过 端口 500 或 4500 发 送 。 然 而 ， 由 于 IKE 流量 可 能 会 通过 
NAT 传递 ， 从 而 造成 端口 号 的 改写 ， 因 此 一 个 IKE 接收 者 应 该 准备 接收 来 自任 何 端口 的 流 
量 。 端 口号 4500 被 保留 用 于 UDP 封装 的 ESP 与 IKE [RFC3948]。 出 现在 端口 4500 上 的 IKE 
消息 会 将 其 最 初 的 4 个 字 节 设置 为 0 (GE ESP 标记 ) 以 区 别 于 其 他 消息 (例如 ESP 或 WESP)。 

4 IKE 消息 出 现 丢失 情况 时 ，IKE 发 起 者 会 采用 基于 计时 器 的 重 传 。 只 有 当 接 收 到 一 条 
请 求 时 ， 响 应 者 才 会 触发 重 传 。 重 传 需要 使 用 一 个 指数 增长 的 计时 器 ， 但 并 未 指定 总 次 数 。 
发 起 者 与 响应 者 都 会 跟踪 它们 最 后 发 送 的 消息 以 及 相应 的 序列 号 。 序 列 号 用 于 匹配 请 求 与 响 
应 ， 并 识别 消息 的 重 传 。 这 样 使 得 IKE 成 为 一 个 基于 窗口 的 协议 。 它 的 最 大 窗口 大 小 由 响应 
者 设 定 。 当 首次 设置 SA 时 给 出 初始 值 ， 但 随后 会 不 断 增 长 。 最 大 窗口 大 小 限制 了 未 完成 请 
求 的 总 数 。 


18.8.1.1 IKEv2 消息 格式 

IKE 消息 包含 了 一 个 头 部 ， 后 面 跟着 0 或 多 个 IKE 负载 。 头 部 结构 如 图 18-11 HZR o 

图 18-11 显示 了 IKE 消息 的 头 部 ， 其 中 安全 参数 索引 (Security Parameter Index, SPI) 
是 一 个 64 位 的 号 码 ， 用 于 标识 一 个 特定 的 IKE_SA (其 他 IPsec 协议 使 用 一 个 32 位 的 SPI 
值 )。 发 起 者 与 响应 者 都 会 有 一 个 属于 自己 的 SA， 所 以 它们 能 提供 正在 使 用 的 SPI。 这 一 对 
SPI 值 能 够 与 通信 两 端的 IP 地 址 结合 起 来 用 于 形成 一 个 有 效 的 连接 标识 符 。 下 一 个 负载 字段 
将 在 本 节 稍 后 部 分 讨论 。 对 这 一 版 本 的 IKE 来 说 ， 主 要 版 本 与 次 要 版 本 字段 应 分 别 设置 为 2 
与 0。 当 无 法 维持 版 本 之 间 的 互 操作 性 时 ， 主 要 版 本 号 就 会 被 修改 。 交 挨 类 型 字段 给 出 了 消 
息 的 交换 类 型 ， 其 中 包括 : IKE SA_INIT (34), IKE AUTH (35), CREATE CHILD SA (36), 
INFORMATIONAL (37), IKE_SESSION_RESUME (38; 参见 [RFC5723])。 其 他 数值 被 保留 ， 
240 ~ 255 的 范围 被 留 作 私 人 用 途 。 在 标志 位 字段 (每 一 位 都 按 从 右 到 左 的 顺序 从 0 开始 进 
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行 标识 ) 定义 了 一 个 3 比特 位 的 字段 : I (发 起 者 , 第 3 位 ),，V (版 本 , 第 4 位 )， 以 及 R( 响 
应 者 , 第 5 位 )。I 位 由 原始 发 起 者 设置 ， 接 收 者 会 在 返回 消息 中 将 其 清除 。V 位 指出 一 个 版 
本 号 ， 高 于 发 送 者 当前 使 用 的 协议 的 主要 版 本 号 。R 位 指出 当前 消息 是 之 前 某 一 消息 的 响应 ， 
与 其 使 用 相同 的 消息 标识 











0 15 31 
“ IKE SA 发 起 者 的 SPI ( 64 位 ) 
六 用 作 连 接 _SA 发 起 者 位 
标识 符 
KE_SA 响 应 者 的 SPI ( 64 位 ) 








主要 版 本 | 次 要 版 本 


下 一 个 负载 (8 位 ) (4 位 ) (4 位 ) 交换 类 型 ( 8 位 ) | 标志 位 ( 8 位 ) 
上 消息 标识 符 (32 位 ) 
































长 度 (32 位 ) | 
( 紧 跟 在 IKE 头 部 后 的 负载 ) 标志 位 字段 ee ely me 
R: 响应 者 TREX 
V: 版 本 
(支持 较 高 的 主要 版 本 号 ) 


图 18-11 IKEv2 头 部 。 所 有 的 IKE 消息 都 包含 一 个 头 部 ， 后 面 跟着 0 或 多 个 负载 。IKE 使 用 64 位 
SPI 值 。 交 换 类 型 字段 给 出 了 所 支持 的 交换 以 及 消息 中 期 望 的 负载 。 标 志 位 字段 指明 消息 是 
否 从 发 起 者 发 往 响应 者 。 消 息 标识 符 将 请 求 与 响应 关联 起 来 以 检测 重 放 攻 击 


IKE 的 消息 标识 符 字段 扮演 着 类 似 于 TCP 中 序列 号 字段 的 角色 (参见 第 12 章 图 12-3 )， 
不 同 的 是 对 于 发 起 者 而 言 消息 标识 符 将 从 0 开始 计算 ， 而 对 于 响应 者 而 言 从 1 开始 计算 。 该 
字段 在 随后 的 每 一 次 传输 中 都 增加 1， 而 响应 会 使 用 与 请 求 相同 的 消息 标识 符 。 消 息 中 的 第 
I 位 与 第 RR 位 用 于 区 分 请 求 与 响应 。 无 论 是 在 发 送 还 是 接收 时 ， 消 息 标 识 符 都 会 被 记录 下 。 
这 样 做 可 以 帮助 每 一 个 通信 端 检测 重 放 攻 击 。 过 期 的 消息 标识 符 不 会 被 处 理 掉 。 消 息 标识 
符 字段 的 回 绕 (可 能 会 发 生 ， 但 不 太 可 能 出 现 40 亿 IKE 消息 ) 是 通过 重新 初始 化 IKE SA_ 
INIT 交换 来 进行 管理 的 。 

其 他 字段 (下 一 个 负载 与 长 度 ) 用 于 描述 IKE 消息 所 包含 的 内 容 。 每 一 条 消息 包含 0 或 
多 个 负载 ， 而 每 个 负载 都 有 自身 特定 的 结构 。 长 度 字 段 统计 了 IKE 消息 头 部 与 所 有 负载 的 
合计 大 小 ( 按 字 节 数 计算 )。 下 一 个 负载 字段 指出 了 后 面 负载 的 类 型 。 目 前 已 经 定义 了 16 种 
类 型 (数值 0 表示 没有 下 一 个 负载 )， 请 参见 表 18-2。 读 者 可 以 查看 官方 当前 的 列表 (参见 
[IKEPARAMS])， 其 中 包含 了 IKEv2 所 有 的 标准 字段 数值 。 


R 18-2 IKEv2 负载 类 型 。 数 值 0 表示 没有 下 一 个 负载 


下 

(a | 证 书 请 求 (指出 信任 错 点 ) 
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| wr ”| 标识 符 (响应 者 ) 


当事人 (发 起 者 ， 响 应 者 ) 





844 


845 


600 #18 È 








流量 选择 器 (响应 者 ) 


加 密 与 认证 (包含 其 他 负载 ) 
Vv | 人 ca PE 置 
扩展 认证 (EAP) 





1 ~ 32 与 49 ~ 255 的 数值 范围 被 保留 ， 而 128 ~ 255 的 数值 范围 被 留 作 私 用 。 每 一 个 
IKE 负载 都 是 从 IKE 通用 负载 头 开始 的 ， 如 图 18-12 所 示 。 


0 8 15 16 31 
下 一 个 负载 (8 位 ) | C 保留 负载 长 度 (16 位 ) | 








图 18-12 一 个 “通用 ”的 IKEv2 负载 头 部 。 每 一 个 负载 都 始 于 这 种 形式 的 头 部 


通用 的 负载 头 部 固定 为 32 位 ， 下 一 个 负载 与 负载 长 度 字 段 提供 了 一 个 大 小 可 变 的 负载 
“ 链 ”( 最 多 为 65 535 字 节 ， 包 括 负载 头 部 的 4 字 节 )。 该 负载 “ 链 ” 存 在 于 一 条 IKE 消息 中 。 
每 一 个 负载 类 型 都 有 其 自身 特殊 的 头 部 。C 位 字段 指出 当前 负载 (而 不 是 下 一 个 负载 字段 标 
识 的 负载 ) 对 于 一 个 成 功 的 IKE 交换 而 言 被 认为 是 “关键 ”的 。 不 理解 类 型 代码 (在 前 一 个 
负载 的 下 一 个 负载 字段 或 IKE 头 部 的 下 一 个 负载 字段 中 提供 ) 的 关键 负载 接收 者 必须 终止 
IKE 交换 。 需 要 注意 的 是 这 种 能 力 为 创建 那些 不 会 被 所 有 实现 理解 的 新 负载 类 型 提供 了 可 能 。 


18.8.1.2 IKE_SA_INIT 交换 

为 了 更 好 地 了 解 IKE 的 运行 过 程 ， 我 们 从 描述 IKE_SA_INIT 交换 开始 。 它 是 图 18-13 
中 构成 KE“ 初始 交换 ”的 IKE SA INIT 与 IKE AUTH 中 的 第 一 个 交换 。 在 早期 版 本 的 
IKE 中 ， 初 始 交换 也 称 作 第 1 阶段 。 其 他 交换 ( CREATE_CHILD_SA 与 INFORMATIONAL) 
只 有 在 初始 交换 完成 之 后 才能 被 任何 一 方 发 起 。 由 于 基于 前 两 个 交换 所 建立 的 参数 ， 它 们 总 
是 有 安全 保障 的 (加 密 或 完整 性 保护 )。 

如 图 18-13 所 示 ，IKE_SA_INIT 通过 协商 选择 加 密 套 件 、 交 换 随 机 数 ， 以 及 执行 DH 密 
钥 协 商 协议 。 它 也 可 能 包含 一 些 附 加 信息 ， 这 取决 于 特定 的 实现 与 部 署 场景 。IKE_SA_INIT 
交换 开始 于 发 起 者 发 送 一 个 IKE 消息 。 该 消息 包含 自身 所 支持 的 加 密 套 件 、DH 信息 以 及 用 
于 3 个 负载 (SA, KEG Ni) 的 随机 数 。[RFC5996] 的 第 3 部 分 给 出 了 每 一 种 负载 类 型 的 详 
细 信 息 ， 我 们 将 会 在 18.8.1.3 节 讨 论 其 中 的 一 部 分 内 容 。 需 要 注意 的 是 一 些 实现 会 包含 额外 
的 负载 。 如 果 没 有 针对 当前 消息 的 响应 ， 那 么 发 起 者 就 会 触发 重 传 过 程 。 

收 到 第 一 条 消息 后 ， 响 应 者 能 够 获知 发 起 者 提出 的 一 个 IKE 传输 请 求 、 发 起 者 所 支持 
的 加 密 套 件 以 及 配置 参数 。 响 应 者 选择 一 个 可 接受 的 加 密 套 件 ， 并 将 其 描述 于 SArl 负载 中 
(参见 18.8.1.3 节 )。 响 应 者 还 要 在 KEr 负载 中 提供 其 DH 密 钥 协商 参数 部 分 ， 在 Nr 负载 中 包 
含 它 的 随机 数 ， 以 及 在 CERTREQ 负载 中 包含 一 个 针对 发 起 者 证 书 的 可 选 请 求 。CERTREQ 
负载 指出 了 响应 者 能 够 接受 的 CA《〈 即 它 指出 了 响应 者 的 信任 锚 点 )。 这 些 CA 将 在 后 续 的 交 
换 过 程 中 用 来 验证 证 书 。 一 条 包含 响应 者 IKE 头 部 以 及 所 有 负载 的 消息 会 作为 响应 发 送 给 发 
起 者 ， 从 而 完成 IKE_ SA_INIT 交换 。 在 一 些 实现 中 会 包含 一 些 额 外 的 负载 (比如 通知 负载 
与 配置 负载 ， 参 见 18.8.1.5 节 )。 为 了 更 好 地 理解 IKE SA_INIT 的 运行 过 程 ， 我 们 将 进一步 
讨论 其 最 重要 的 负载 : SA, KE, Ni 以 及 Nr。 
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图 18-13 IKE_SA_INIT 与 IKE AUTH 交换 所 包含 的 负载 用 于 建立 头 两 个 安全 关联 (IKE_SA 与 一 个 
CHILD SA)。 证 书 负载 与 证 书 请 求 负 载 (包括 信任 锚 点 ) 也 可 能 会 像 通知 负载 与 配置 负载 
(图 中 未 显示 ) 一 样 被 包含 于 交换 过 程 中 


18.8.1.3 ”安全 关联 负载 与 建议 

安全 关联 (SA) 负载 包含 了 一 个 SPI 数值 与 一 套 建 议 (通常 是 一 个 )。 这 些 建 议 是 通过 
某 些 复杂 的 建议 结构 建立 起 来 的 。 每 一 个 建议 的 结构 都 被 编号 并 且 包 含 一 个 IPsec 协议 标识 
符 。 协 议 标识 符 将 会 指出 下 面 的 一 种 IPsec 协议 : IKE、AH 或 ESP (参见 18.8.2 节 与 18.8.3 
节 )。 使 用 同一 个 建议 号 的 多 个 建议 结构 被 认为 是 同一 建议 的 一 部 分 (对 于 指定 协议 而 言 ， 是 
“与 ”的 关系 )。 拥 有 不 同 建议 号 的 建议 结构 被 认为 是 不 同 的 建议 (对 于 指定 协议 而 言 ， 是 
“或 ”的 关系 )。 

每 一 个 建议 /协议 结构 包含 一 个 或 多 个 转换 结构 来 描述 用 于 指定 协议 的 算法 。 通 常情 况 
下 ，AH 仅 有 一 个 转换 结构 (与 完整 性 检验 算法 对 应 )，ESP 有 两 个 转换 结构 (与 完整 性 检验 
算法 和 加 密 算 法 对 应 )， 而 DH 则 有 4 个 转换 结构 (DH 组 编号 、PRF、 完 整 性 检验 以 及 加 密 
算法 )。 结 合 加 密 与 完整 性 检测 的 算法 (例如 ， 认 证 加 密 算法 ) 被 单独 描述 为 加 密 算法 ,没有 
独立 的 完整 性 保护 规范 。 一 个 特殊 的 扩展 序列 号 “转换 ”( 它 实际 上 是 一 个 布尔 值 )， 指 出 与 
SA (EHF AH 或 ESP) 一 起 使 用 的 序列 号 是 否 应 该 使 用 32 位 或 64 位 进行 计算 。 

如 果 有 多 个 相同 类 型 的 转换 ， 建 议 则 是 这 些 转 换 ( 即 任何 可 接受 的 转换 ) 的 并 集 。 如 果 
有 多 个 不 同类 型 的 转换 ， 建 议 则 是 这 些 转换 的 交集 。 某 一 个 转换 可 能 会 有 0 个 或 多 个 属性 。 
当 一 种 转换 能 以 多 种 方式 使 用 时 (例如 ， 一 个 能 够 处 理 不 同 长 度 的 密 钥 的 转换 会 有 一 个 与 某 
建议 所 用 的 特定 密 钥 长 度 相关 的 属性 )， 这 显然 是 必需 的 。 绝 大 多 数 转换 并 不 需要 属性 ， 但 
是 较 常见 的 AES 加 密 转换 是 需要 的 。 


18.8.1.4 ” 密 钥 交换 与 随机 负载 

除了 SA 负载 之 外 ，IKE SA_INIT 消息 还 包含 了 一 个 密 钥 交换 (Key Exchange, KE) 与 
一 个 随机 数 负载 ( 记 作 Ni、Nr， 或 者 有 时 也 记 作 No). KE 负载 包含 了 DH 组 编号 与 密 钥 交 
换 数据 。 密 钥 交 换 数 据 代 表 了 用 于 形成 一 个 临时 Diffie-Hellman 密 钥 (初始 共享 密 钥 ) 的 公 


602 B18 È 


HAF. DH 组 编号 给 出 了 计算 公共 数字 所 在 的 组 。 随 机 数 负载 包含 了 一 个 近期 生成 的 长 度 
在 16 ~ 256 字 节 的 随机 数 。 它 用 于 生成 密 钥 材 料 ， 以 确保 时 新 性 并 抵御 重 放 攻击 。 

一 旦 DH 交换 完成 ， 每 一 方 都 能 够 计算 自己 的 SKEYSEED 值 ， 该 值 用 来 生成 所 有 与 
IKE_SA 相关 的 子 密 钥 (除非 使 用 一 个 生成 密 钥 的 EAP 方法 ,参见 18.8.1.9 节 ), 一 共 包 含 7 
个 秘密 值 : SK d、SK ai、SK ar、SK ei、SK er、SK pi 以 及 SK_pr。 这 些 值 将 按照 以 下 
公式 进行 计算 : 

SKEYSEED = prf(Ni | Nr, g’ir) 
{SK_d|SK_ai|SK_ar|SK_eilSK_er|SK_pi|SK_pr} = prf + (SKEYSEED, Nil|Nr|SPIi|SPIr) 
此 处 ,“|” 表 示 连 接 运算 符 。 级 联 PRF WW prf + (K, S)T1 | T2 | … 中 ，T1 = prf(K, 

S|0x01), T2 = prf(K, T1|S|0x03), T3 = prf(K, T2|S|0x03), T4 = prf(K, T3|SI0x04),.。 数 值 g^ir 
是 在 DH 交换 过 程 中 建立 的 共享 密 钥 。Ni 与 Nr 是 随机 数 (去 掉 任 何 负载 头 部 )。 值 得 注意 的 
是 每 个 SA 在 每 一 个 方向 使 用 不 同 的 密 钥 ， 这 也 解释 了 为 什么 需要 如 此 多 的 密 钥 。SK_d 密 钥 
用 于 派生 CHILD_SA #74. SK_a 密 钥 与 SK_e 密 钥 分 别 用 于 认证 与 加 密 。SK_p 密 钥 用 于 在 
IKE_AUTH 交换 中 生成 AUTH 负载 。 


18.8.1.5 ”通知 负载 与 配置 负载 

N 负载 是 一 个 通知 负载 。 虽 然 图 18-13 中 并 未 显示 此 类 负载 ， 但 我 们 将 在 后 面 的 例子 
中 使 用 它 。 它 能 够 用 于 传输 错误 消息 以 及 关于 绝 大 多 数 IKE 交换 类 型 的 处 理 能 力 的 指示 。 
它 包含 一 个 长 度 可 变 的 SPI 字段 与 一 个 用 于 指出 通知 类 型 的 16 位 字段 [KEPARAMS]。 低 
于 8192 的 数值 用 于 标准 错误 ， 而 高 于 16383 的 数值 用 于 状态 指示 器 。 例 如 ， 当 请 求 创建 一 
个 新 的 SA 传输 模式 来 蔡 代 默认 的 隧道 模式 时 ， 通 知 负载 中 将 会 包含 USE_TRANSPORT 
MODE 数值 (16391 )。 如 果 支 持 IP 压缩 [RFC3173]， 可 以 通过 IPCOMP_ SUPPORTED 数值 
(16387) 指出 这 一 事实 。 如 果 支 持 鲁 棒 性 头 部 压缩 ( ROHC) [RFC5857]， 可 以 通过 ROHC_ 
SUPPORTED 数值 (16416 ) 指出 ， 它 也 可 以 包含 ROHC 参数 来 建立 所 谓 的 ROHCoIPsec 安 
全 关联 。 和 希望 使 用 “封装 ESP” 模 式 时 可 以 通过 USE WESP_ MODE 数值 (161415 ) 来 指 
出 。 通 知 负载 可 能 会 包含 一 个 长 度 可 变 的 数据 部 分 ， 而 这 部 分 的 内 容 取决 于 通知 类 型 。 

与 通知 负载 一 样 ， 配 置 (CP) 负载 也 会 包含 额外 的 信息 ， 但 主要 用 于 初始 化 系统 配置 。 
例如 ， 通 常 使 用 DHCP (参见 第 6 章 ) 传输 获得 的 信息 也 可 以 借助 CP 通过 IKE 传输 。CP 一 
般 包 含 以 下 几 种 类 型 : CFG REQUEST、CFG REPLY、CFG SET 以 及 CFG_ACK。CP 使 用 
属性 - 值 对 (attribute-value,ATV)， 通 常会 包含 一 个 长 度 可 变 的 相关 数据 区 域 。[IKEPARAMS] 
中 定义 了 20 个 属性 - 值 对 。 大 多 数 涉及 获得 IPv4 或 IPv6 ibik, FAHI, DNS 服务 器 地 址 
的 方法 。 鉴 于 IPv6 通常 使 用 ICMPv6 来 实现 无 状态 的 自动 配置 与 邻居 发 现 (参见 第 8 章 )， 
此 它 的 配置 需要 特别 的 注意 。 一 份 实验 规范 [RFC5739] 讨论 了 在 配置 VPN 时 如 何 利 用 IKEv2 
协议 来 配置 跨 IPsec 的 IPv6 节点 。 


18.8.1.6 ”算法 选择 与 应 用 

IKE 将 形成 加 密 套 件 的 转换 分 为 4 种 类 型 : 加 密 (类 型 1， 与 KE 和 ESP 一 起 使 用 )， 
PRF (类 型 2， 与 IKE 一 起 使 用 )， 完 整 性 保护 (类 型 3， 与 IKE 和 AH 一 起 使 用 ， 在 ESP 中 
是 可 选 的 )， 以 及 DH 组 (类 型 4, 与 IKE 一 起 使 用 , 在 AH 与 ESP 中 是 可 选 的 )。 虽 然 IKE 
能 够 通过 协商 来 决定 为 SA 的 每 个 方向 使 用 何 种 特殊 的 加 密 套 件 ， 但是， 对 任何 实现 来 说 ， 


必须 强制 支持 一 些 算法 (转换 )。 此 外 ,一 些 算法 被 选 作 推荐 ,它们 在 未 来 很 可 能 会 被 强制 
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实现 。[RFC4307] 介绍 了 这 些 算 法 ， 参 见 表 18-3。 

因特网 编号 分 配 机 构 (IANA) 还 负责 数值 的 官方 注册 [IEPARAMS]。 虽 然 此 处 列表 包 
含 了 写作 本 书 时 的 强制 算法 ， 但 还 有 许多 其 他 的 算法 、 组 与 技术 已 被 提出 或 公布 ， 包 括 基于 
ECC 的 数字 签名 选项 (参见 [RFC4754])。 


表 18-3 与 IKEv2 一 起 使 用 的 “强制 实现 ”的 算法 ， 按 类 型 号 分 组 










ENCR_3DES 
ENCR_NULL 
ENCR_AES_CBC 
ENCR_AES_CTR 


PRF HMAC MD5 1 可 选 
PRF HMAC SHAI 2 要 求 
PRF_AES128 CBC 4 推荐 
AUTH HMAC _ MD5 96 1 可 选 
AUTH_HMAC SHA1_96 2 ae 
AUTH_AES XCBC 96 5 

1024 MODP (Group 2) 2 

2048 MODP (Group 14) 14 推荐 


18.8.1.7 IKE_AUTH 交换 
如 前 所 述 ，SKEYSEED 值 用 于 派生 加 密 与 认证 密 钥 。 这 两 个 密 钥 用 于 在 IKE_AUTH 交 
换 中 保证 负载 的 安全 。 它 们 分 别称 为 SK_e 与 SK_a。SK{P1, P2, .…, PN} 指出 负载 P1, ..., PN 
已 经 通过 密 钥 进行 加 密 并 受到 完整 性 保护 。IKE_AUTH 交换 的 主要 用 途 在 于 为 每 一 个 端点 提 
供 身份 认证 。 它 还 会 交换 足够 的 信息 来 建立 首 个 CHILD_SA。 
为 了 开启 IKE_AUTH 交换 ， 发 起 者 需要 发 送 负载 SK{IDi, AUTH, SAi2, TSi, TSr}。 假 
设 有 合适 的 解密 密 钥 ， 它 能 够 提供 发 起 者 的 身份 、 证 明 发 起 者 身份 的 认证 信息 、 用 于 首 个 
CHILD_SA 的 SA 负载 ( 称 作 SAi2 ) 以 及 一 对 流量 选择 器 (负载 TSi 与 TSr，18.8.1.8 WHS 
讨论 ) 。 发 起 者 可 能 会 将 自己 的 证 书包 含 在 CERT 负载 中 ， 还 可 能 在 CERTREQ 负载 中 包含 
一 个 证 书 请 求 从 而 识别 自己 的 信任 锚 点 ， 也 有 可 能 在 Dr 负载 中 包含 响应 者 的 身份 。 当 响应 
者 拥有 多 个 身份 对 应 同一 个 IP， 并 且 需 要 确保 建立 合适 的 SA 时 ， 发 送 响 应 者 的 身份 就 会 十 
分 有 效 。ID 负载 能 够 支持 不 同 的 身份 类 型 ， 包括 IP 地 址 、FQDN、 电 子 邮 件 地 址 以 及 不 同 的 
名 称 (用 于 X.509 证 书 )。 各 种 类 型 在 IKEv2 身份 负载 ID 类 型 注册 表 中 维护 [IKEPARAMS]。 
交换 的 最 后 一 条 消息 包含 了 响应 者 的 身份 (IDr)、 用 于 证 明 响 应 者 身份 的 认证 材料 
(AUTH)、 用 于 构建 CHILD SA 的 其 他 SA ( SAr2 ) 以 及 一 套 流 量 选择 器 ( TSi 与 TSr)。 这 
些 流量 选择 器 的 取 值 是 原 有 TSi 与 TSr 数值 的 子 集 。 在 IKE_AUTH 交换 中 的 所 有 负载 都 会 
被 加 密 ， 并 受到 完整 性 保护 。 一 个 证 书 负载 (CERT) 包含 了 该 节点 可 能 发 送 的 一 个 或 多 个 证 
书 。 若 是 如 此 ,任何 用 于 验证 AUTH 负载 的 公 钥 将 会 首先 出 现在 证 书 列表 中 。 指 定 的 内 容 会 
根据 加 密 套 件 的 不 同 选择 而 变化 。 在 交换 过 程 中 ， 双 方 都 必须 检查 所 有 适用 的 签名 ， 从 而 避 
免 危 害 (包括 MITM 攻击 )。 


18.8.1.8 ”流量 选择 器 与 TS 负载 
流量 选择 器 指出 IP 数据 报 的 一 些 字段 与 相关 数值 ， 根 据 这 些 字 段 与 数值 ，IP 数据 报 被 
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IKE 转换 类 型 2 (用 于 PRF) 
















IKE 转换 类 型 3 (完整 性 ) 





IKE 转换 类 型 4 (DH 组 ) 
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选择 进行 IPsec 处 理 。 流 量 选择 器 与 IPsec SPD 结合 使 用 可 以 决定 包含 的 数据 报 是 否 应 该 用 
IPsec 进行 保护 。 如 前 所 述 ， 不 被 保护 的 数据 报 要 么 会 被 绕 开 ， 要么 会 在 IPsec 处 理 过 程 中 被 
丢弃 。 

TS 负载 的 内 容 会 包括 IPv4 或 IPv6 地 址 范围 、 端 口号 范围 ， 以 及 IPv4 协议 标识 符 或 
IPv6 头 部 值 。 范 围 有 时 候 用 通配符 表示 。 例 如 ，192.0.2.* 或 192.0.2.0/24 都 代表 从 192.0.2.0 
到 192.0.2.255 的 IP 地 址 范围 。 流 量 选择 器 能 够 用 于 帮助 实现 一 些 策略 ， 比 如 建立 一 个 与 特 
定 主机 或 端口 相关 的 SA 时 需要 哪个 加 密 套 件 。 绝 大 多 数 细节 都 是 通过 与 SPD 相连 的 管理 
接口 进行 处 理 的 。 在 一 个 下 E_AUTH 交换 中 ,每 一 方 都 会 指出 一 个 包含 TS 数值 的 TSi 与 
TSr 负载 。 当 一 方 TS 的 范围 小 于 另 一 方 时 ， 会 选择 较 小 的 范围 来 使 用 。 这 一 过 程 被 称 为 “ 收 
18.8.1.9 EAP 与 IKE 

虽然 IKE 包含 了 自己 的 认证 方法 (参见 [RFC5996] 的 2.15 节 )， 但 它 也 能 够 使 用 EAP( 参 
JL [RFC5996] 的 2.16 节 与 3.16 节 )。 如 果 使 用 EAP， 将 会 有 更 广泛 的 身份 验证 方法 ， 大 大 
超出 了 IKE 所 要 求 的 预先 共享 密 钥 或 公 钥 证 书 等 有 限 的 范围 。 事 实 上 ， 这 一 有 限 的 选项 集合 
也 是 IPsec 的 普及 无 法 取得 进一步 成 功 的 原因 之 一 。 

使 用 EAP 的 要 求 通过 在 IKE_AUTH 交换 的 第 3 条 消息 中 忽略 第 1 个 AUTH 负载 而 表现 
出 来 (如 图 18-13 所 示 )。 通 过 包含 Di 负载 而 不 包含 AUTH 负载 ， 发 起 者 能 够 声明 一 个 身 
份 但 不 能 对 其 进行 证 明 。 如 果 EAP 是 可 接受 的 ， 那 么 响应 者 将 会 返回 一 个 EAP 负载 并 推迟 
发 送 SAr2 、TSi 与 TSr 的 负载 ， 直 到 基于 EAP 的 认证 完成 。 如 果 在 完成 一 个 或 多 个 EAP 负 
载 交换 之 后 ， 发 起 者 最 终 发 送 了 一 个 EAP 可 接受 的 并 且 也 能 获得 响应 者 验证 的 AUTH 负载 ， 
那么 就 会 发 生 上 述 情况 。 

如 果 将 EAP 与 IKE 放 在 一 起 考虑 ， 可 能 会 出 现 一 个 因为 双重 认证 而 引发 的 效率 低下 问 
题 。 尤 其 是 ， 较 早 的 EAP 方法 只 提供 单 向 的 认证 (端点 到 认证 者 )， 因 此 IKE 要 求 基于 证 书 
的 认证 必须 实现 男 一 个 方向 的 认证 。 鉴 于 部 署 必要 的 密 钥 基础 设施 有 时 是 困难 的 ， 新 的 EAP 
方法 支持 互相 认证 与 密 钥 派生 。[RFC5998] 提供 了 一 种 只 使 用 EAP 的 认证 方法 。 借 助 一 个 由 
发 起 者 发 送 的 EAP_ONLY_AUTHENTICATION 通知 负载 ， 响 应 者 会 停止 将 AUTH 与 CERT 
负载 添加 到 第 4 条 消息 中 发 送出 去 (如 图 18-13 所 示 )。 在 这 种 情况 下 ， 随 后 的 AUTH 负载 
使 用 由 EAP 生成 的 密 钥 来 代替 SK_pi 和 SK_pr. 

采用 只 有 EAP 的 认证 需要 确保 EAP 方法 足够 安全 ， 这 样 才 能 够 消除 对 IKE 认证 的 需 
求 。 这 些 方法 被 称 为 安全 的 EAP 方法 。 为 了 确保 安全 性 ， 一 个 EAP 方法 必须 提供 互相 认证 ， 
并 能 够 生成 密 钥 ， 以 及 具备 抵御 字典 攻击 的 能 力 。[RFC5998] 介绍 了 13 种 EAP 方法 ， 其 中 
包括 EAP-TLS、EAP-FAST 以 及 EAP-TTLS。 这 些 方法 都 被 认为 是 安全 的 。 


18.8.1.10 “总 比 没 有 强 ” 的 安全 

最 近 采 用 IKE 与 IPsec 开发 的 一 种 技术 被 称 为 “总 比 没有 强 ” 的 安全 (Better-Than- 
Nothing Security，BTNS)。BTNS 旨 在 解决 IPsec 的 部 署 问题 中 的 可 用 性 与 舒适 性 ， 尤 其 是 
建立 一 个 PKI 或 部 署 其 他 认证 系统 来 使 用 证 书 的 需求 [RFC5387]。 从 技术 上 讲 ，BTNS 基本 
上 是 未 经 身份 认证 的 IPsec [RFC5386], “4 IKE 用 于 建立 一 个 SA 时 BTNS 就 能 够 获得 足够 
的 支持 。 如 果 使 用 BTNS， 公 钥 仍然 会 被 使 用 ,但 是 它们 所 包含 的 证 书 将 不 需要 通过 证 书 链 
或 根 证 书 来 验证 。 因 此 ,一 个 SA 能 够 保证 相同 的 实体 正在 通信 ， 但 不 能 保证 任何 特殊 的 已 
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被 认证 的 实体 建立 了 SA。 这 种 形式 的 认证 被 称 为 关联 的 连续 性 ， 它 弱 于 在 普通 IPsec 中 提出 
的 数据 源 认 证 。BTNS 不 会 对 IPsec 做 出 任何 其 他 实质 性 的 修改 。IKE 的 格式 、AH 以 及 ESP 
消息 仍然 与 之 前 相同 。 


18.8.1.11 CREATE_CHILD_SA 交换 

CREATE_ CHILD SA 交换 用 于 为 ESP 或 AH 创建 CHILD_ SA， 或 者 在 初始 交换 完成 
之 后 为 当前 的 SA (IKE_SA 3È CHILD_SA) 更 新 密 钥 。 它 使 用 单独 的 数据 包 交换 过 程 ， 并 
且 能 够 被 KE_SA 交换 的 任何 一 方 发 起 ， 而 IKE_SA 交换 是 在 初始 交换 过 程 中 建立 起 来 的 。 
CREATE_CHILD_ SA 交换 有 两 个 变种 ， 取 决 于 是 否 对 CHILD SA 或 IKE SA 做 出 修改 。 
图 18-14 展示 了 它 的 变种 ， 发 起 者 是 发 起 CREATE CHILD SA 交换 的 实体 ， 但 不 必 是 IKE_ 
SA 的 原始 发 起 者 。 

在 图 18-14 中 ,第 一 个 交换 描述 了 一 个 用 于 创建 新 的 或 更 新 现 有 的 CHILD_SA 的 
CREATE_CHILD SA。 更 新 是 通过 在 发 起 者 发 送 的 通知 负载 中 设置 一 个 N(REKEY SA) 来 
指出 的 。 为 了 完成 更 新 操作 ， 首 先 需 要 创建 一 个 新 的 SA， 然 后 再 删除 旧 的 SA (参见 下 一 
节 )。 新 的 SA 与 流量 选择 器 信息 允许 对 绝 大 多 数 的 连接 参数 进行 修改 。 如 果 需 要 ， 这 时 新 的 
DH 值 也 可 以 通过 KE 负载 进行 交换 。 这 样 就 为 新 的 SA 提供 了 更 好 的 向 前 保密 性 。 更 新 一 
MIKE SA 使 用 类 似 的 交换 过 程 ， 不 同 的 是 KE 负载 是 必需 的 ， 而 TS 负载 将 不 会 使 用 ， 如 
图 18-14 的 第 2 部 分 所 示 。 


CREATE_CHILD SA 


交换 
( 新 的 或 更 新 的 CHILD SA ) 


HDR, 5 
K{SA y; 
AN KEj} 
CREATE_CHILD_SA 
交换 
(更 新 的 IKE_SA ) RE 
poe 


18-14 CREATE_CHILD_SA 交换 能 够 用 于 创建 或 更 新 一 个 CHILD_SA, 或 用 于 更 新 一 个 IKE_SA。 
当 修 改 CHILD_SA 以 指出 要 修改 的 SA 的 SPI 时 ， 将 会 使 用 通知 负载 


18.8.1.12 ”信息 交换 

INFORMATIONAL 交换 用 于 传输 状态 与 错误 信息 ， 通 常会 使 用 通知 (N) 负载 。 它 也 会 
出 现在 删除 (D) 负载 中 用 于 删除 某 个 SA， 从 而 构成 SA 更 新 过 程 的 一 部 分 。 图 18-15 展示 
了 它 的 交换 过 程 。 
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INFORMATIONAL 交换 只 有 在 成 功 完 成 初始 交换 之 后 才 会 发 生 。 它 包含 了 一 个 通知 的 
可 选集 合 、 删 除 负载 (用 于 指出 那些 


发 起 者 响应 者 
按照 SPI 值 而 被 删除 的 SA) 以 及 配 (i) (r) 
置 (CP) 负载 。 当 接收 到 来 自发 起 者 Hog 

的 任何 消息 时 ， 即 使 是 一 个 空 的 IKE SKIN 

消息 ( 即 只 包含 一 个 头 部 )， 也 需要 做 a 
出 一 些 响应 。 和 否则 ， 发 起 者 将 会 不 必 INFORMATIONAL 

要 地 重 传 它 的 消息 。 在 不 寻常 的 情况 out) 

F, INFORMATIONAL 消息 可 能 会 在 i 
INFORMATIONAL 交换 过 程 之 外 被 发 

送 ， 通 常 作为 接收 到 包含 未 识别 的 SPI 图 18-15 用 于 传输 状态 信息 与 删除 SA 的 INFORMATI- 
值 或 不 被 支持 的 IKE 主 要 版 本 号 的 ONAL 交换 。 它 能 够 使 用 通知 (N)、 删 除 (D) 
IPsec 消息 的 信号 。 以 及 配置 (CP) 负载 


18.8.1.13 ”移动 IKE 

一 旦 IKE_SA 被 建立 起 来 ， 将 不 断 地 使 用 它 直 到 不 再 有 需求 为 止 。 然 而 ， 当 IPsec 
运行 于 一 个 IP 地 址 会 因为 移动 性 或 接口 失效 而 发 生 改变 的 环境 中 时 ，[RFC4555] 给 出 
了 一 种 IKE 的 改进 版 本 ， 称 作 MOBIKE。MOBIKE 在 IKEv2 协议 基础 上 又 增加 了 用 在 
INFORMATIONAL 交换 中 的 “地 址 改变 ”选项 。MOBIKE 指出 当知 晓 IP 地 址 发 生 改 变 时 应 
该 做 什么 ， 而 不 关注 如 何 确定 这 些 地 址 之 类 的 发 现 问题 。 


18.8.2 ”认证 头 部 


IP 认证 头 部 ( Authentication Header, AH) 定义 于 [RFC4302] 中 ， 是 IPsec 的 三 大 主要 
组 成 部 分 之 一 。 它 是 IPsec 协议 套件 的 可 选 部 分 ， 提 供 了 一 种 源 认 证 与 保护 IP 数据 报 完 整 性 
(而 不 是 机 密 性 ) 的 方法 。 只 提供 完整 性 而 非 机 密 性 保护 (AS NAT 一 起 使 用 ， 参见 本 节 的 
剩余 部 分 )，AH 的 流行 度 不 及 另外 两 个 主要 的 IPsec 数据 安全 协议 。 在 传输 模式 中 ，AH 使 
用 的 头 部 位 于 第 3 层 (IPv4、IPv6 基本 部 分 或 IPv6 扩展 部 分 ) 的 头 部 与 下 一 层 协议 的 头 部 
(Hin, UDP, TCP, ICMP) 之 间 。 如 果 有 IPv6 协议 的 话 ，AH 会 出 现在 一 个 目的 地 选项 扩 
展 头 部 之 前 。 在 隧道 模式 下 ,“ 内 部 ”IP 头 部 承载 着 原始 的 IP 数据 报 ， 包 含 着 最 终 的 IP 源 
与 目的 地 的 信息 ， 而 一 个 新 创建 的 “外 部 ”IP 头 部 则 会 包含 描述 IPsec 端点 的 信息 。 在 这 种 
RAF, AH 能 够 保护 整个 内 部 IP 数据 报 。 一 般 来 说 ,传输 模式 用 于 直接 相连 的 终端 主机 ， 
而 隧道 模式 则 用 于 安全 网 关 (SG) ŻW, 或 一 台 主机 与 安全 网 关 之 间 (例如 ， 为 了 支持 一 个 
VPN)。IPv4 与 IPv6 能 够 针对 不 同 传输 模式 的 AH 进行 封装 。 图 18-16 展示 了 TCP 的 相关 
例子 。 

在 图 18-16 中 ，IPv4 的 封装 使 用 了 一 个 特殊 的 IPv4 协议 号 (51 )。 对 于 IPv6 而 言 ，AH 
位 于 目的 选项 与 其 他 选项 之 间 。 在 任何 一 种 情况 下 ， 产 生 的 数据 报 的 头 部 都 会 包含 一 个 可 变 
部 分 与 一 个 不 可 变 部 分 。 可 变 部 分 会 随 着 数据 报 在 网 络 中 传输 而 发 生 改 变 。 这 些 改变 包括 
修改 IPv4 的 TTL 字段 或 IPv6 的 跳 数 限制 字段 、IPv6 的 流标 签字 段 、DS 字段 以 及 ECN 位 。 
不 可 变 部 分 包括 了 源 与 目的 地 的 耳 地 址 。 它 们 不 会 在 网 络 中 发 生 改 变 ， 并 且 会 利用 AH 中 
的 字段 实现 完整 性 保护 。 这 样 就 防止 了 传输 模式 的 AH 数据 报 被 NAT 重新 改写 。 对 于 多 数 
部 署 而 言 ， 这 是 一 个 潜在 的 问题 。 传 输 模 式 不 能 使 用 分 片 (IPv4 或 IPv6 )。 
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IPv6 


IPv4 
IPv4 | TCP e IPv6 TCP 
头 部 | 头 部 数据 LH 扩展 头 部 数据 
(选项 ) | (选项 ) 头 部 (选项 ) 


| IPv4 AH 传输 模式 


APv4 TCP 
头 部 | AH | 头 部 














(选项 ) (选项 ) IPv6 AH 传输 模式 
_ 可 变 不 可 变 
处 理 处 理 
被 认证 
( 除 可 变 字段 外 ) 





被 认证 
( 除 可 变 字段 外 ) 
图 18-16 IPsec 认证 头 部 ， 用 于 为 IPv4 与 IPv6 数据 报 提供 认证 与 完整 性 保护 。 在 传输 模式 下 (这 里 与 
TCP 一 起 描述 )， 传 统 的 IP 数据 报 会 被 修改 以 包含 AH 





传输 模式 的 一 种 改变 就 是 AH 隧道 模式 ， 如 图 18-17 所 示 。 在 这 种 模式 下 ， 原 始 数据 报 
是 不 可 碰 的 ， 替 代 方 式 是 将 其 插入 一 个 受到 完整 性 保护 的 新 的 IP 数据 报 中 。 

在 隧道 模式 中 ， 整 个 原始 IP 数据 报 被 封装 起 来 并 受到 AH 的 保护 。“ 内 部 ” 头 部 将 不 会 
被 修改 ， 而 一 个 “外 部 ” 头 部 则 会 根据 与 SG 或 主机 相关 的 源 和 目的 IP 地 址 创建 出 来 。 在 这 
种 情况 ，AH 会 保护 所 有 的 原始 数据 报 ， 以 及 新 头 部 的 某 些 部 分 〈 防 止 它们 被 NAT 修改 )。 

如 图 18-18 所 示 ， 两 种 模式 使 用 的 是 相同 的 AH。 它 能 够 识别 数据 报 的 长 度 与 相关 的 
SA， 并 包括 完整 性 检验 信息 。 负 载 长 度 指 出 了 AH 的 长 度 。 安 全 参数 索引 ( SPI) FRA 
含 了 一 个 32 位 的 位 于 接收 者 端的 SA 标识 符 。 该 接收 者 包含 了 由 SA 派生 出 的 与 组 织 有 关 
的 信息 。 对 于 组 播 SA 而 言 ，SPI 的 数值 往往 通过 一 种 特殊 的 方法 管理 (参见 18.8.4 节 )。 
32 位 的 序列 号 字段 会 随 着 每 一 个 SA 数据 包 的 发 送 而 增 1。 如 果 接 收 者 启用 该 字段 (但 它 
常 被 发 送 者 所 包含 ， 即 使 接收 者 不 检查 它 )， 则 它 一 般 用 于 重 放 保 护 。 一 个 扩展 的 序列 号 
( ESN) 运行 模式 也 被 定义 出 来 并 得 到 推荐 。 它 会 在 IKE_SA_INIT 交换 期 间 得 到 协商 。 如 
果 启 用 ,序列 号 在 计算 时 采用 64 位 ， 但 序列 号 字段 只 会 包含 其 中 的 低 32 位 。 完 整 性 校 验 
值 (ICV) 字段 的 长 度 是 可 变 的 并 且 依赖 于 使 用 的 密码 套件 。 该 字段 在 长 度 上 总 保持 为 32 
比特 的 整数 倍 。 

用 于 完整 性 保护 的 算法 会 在 相关 的 SA 中 作为 第 3 类 转换 被 指出 。 它 能 够 通过 手动 方式 
建立 ， 也 能 够 借助 一 些 自动 的 方法 比如 IKE 建立 。 那 些 针 对 AH (与 ESP) 的 可 选 的 、 推 荐 
的 以 及 强制 的 算法 都 记录 在 [RFC4835] 中 ， 其 中 包括 HMACMD5-96 (可 选 )、AES-XCBC- 
MAC-96 (推荐 ) 以 及 HMAC-SHA1-96 (强制 )。 完 整 性 检验 会 计算 数据 报 的 以 下 部 分 : 头 部 
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字段 (位 于 AH 之 前 ， 在 传输 过 程 中 数值 不 可 变 ， 或 者 当 到 达 目的 AH SA 端点 时 数值 是 可 预 
,| WA). AH、AH 后 面 的 所 有 字段 、ESN 的 高 比特 位 (车 使 用 就 会 计算 ， 即 使 它们 不 被 发 送 ) 
856) ”以 及 填充 数据 。 


IPv4 IPv6 


IPv6 
数据 





IPv6 AH 隧道 模式 





被 认证 





被 认证 
( 除 可 变 字段 外 ) 
图 18-17 AH 封装 的 IPsec 隧道 模式 ， 提 供 了 对 IPv4 与 IPv6 数据 报 的 认证 与 完整 性 保护 。 在 隧道 模 
式 中 (此 处 与 TCP 一 起 描述 )， 传 统 的 IP 数据 报 被 封装 在 一 个 新 的 “外 部 ”IP 数据 报 中 ， 新 
857 的 数据 报 承载 着 原始 数据 报 





0 15 31 
下 一 个 头 部 (8 位 ) 负载 长 度 (8 位 ) 保留 (16 位) 


安全 参数 索引 (SPI, 32 位 ) 
序列 号 ( 32 位) 









完整 性 校 验 值 (ICV 长 度 可 变 ) 


图 18-18 无 论 是 在 传输 模式 ， 还 是 在 隧道 模式 ，IPsec AH 用 于 为 IPv4 与 IPv6 数据 报 提供 认证 与 完整 
性 保护 。SPI 的 数值 指出 AH 属于 哪 一 个 SA。 序列 号 字段 用 于 为 重 放 攻 击 计 数 。ICYV 在 负载 
的 不 可 变 部 分 之 上 提供 了 一 种 MAC 形式 


目前 存在 一 些 关于 可 变 字段 部 署 的 争论 ， 比 如 当 使 用 隧道 模式 时 用 于 表示 初期 拥塞 ( 参 
见 第 5 章 与 第 16 BH) W ECN 比特 位 。 在 [RFC4301] 中 ， 一 些 字段 被 简单 地 复制 到 新 创建 
的 “外 部 ”IP 头 部 的 相关 字段 。[RFC6040] 针对 隧道 封装 定义 了 正常 模式 与 兼容 模式 。 在 正 
常 模式 下 ，CE 与 ECT 位 字段 被 复制 到 封装 的 新 头 部 中 。 在 兼容 模式 下 ， 比 特 位 上 的 数据 将 
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被 清除 ， 生 成 的 “外 部 ”数据 包 指 明 一 个 无 ECN 的 传输 。 在 解 封 过 程 中 ， 如 果 外 部 或 内 部 
的 头 部 包含 了 一 个 CE 指示 ， 该 指示 将 会 被 复制 到 解 封 后 所 产生 的 数据 包 中 ， 除 非 原始 数据 
包 没 有 指明 BCT (在 这 种 情况 下 数据 包 会 被 丢弃 ) 。 此 外 ， 无 论 是 内 部 还 是 外 部 头 部 指明 了 
ECT， 被 解 封 数据 包 中 的 ECT 都 将 设置 为 真 。 


18.8.3 封装 安全 负载 


P IPsec 的 封装 安全 负载 (ESP) 协议 定义 于 [RFC4303] 中 (也 被 称 作 ESP(v3)， 即 便 ESP 
本 身 并 不 提供 正式 的 版 本 号 )， 并 提供 了 一 个 可 选择 的 组 合 ， 包 括 机 密 性 、 完 整 性 、 原 始 认证 
以 及 对 IP 数据 报 的 反 重 放 保 护 。 如 果 只 需要 保证 完整 性 ，ESP 将 会 使 用 一 个 NULL 加 密 方 
法 [RFC2410]， 该 方法 是 强制 支持 的 。 相 反 ， 加 密 用 于 保证 机 密 性 但 不 保护 完整 性 ， 虽 然 这 
种 组 合 只 对 被 动 攻击 有 效 并 且 十 分 令 人 泄气 。 在 ESP 中 ， 完 整 性 包含 了 对 数据 来 源 的 认证 。 
鉴于 它 的 灵活 性 与 特征 集合 ，ESP 远 比 AH 更 流行 。 


18.8.3.1 ”传输 模式 与 隧道 模式 

与 AH RW, ESP 拥有 传输 模式 与 隧道 模式 。 在 隧道 模式 下 ， 一 个 “外 部 ”IP 数据 报 包 
含 一 个 整体 被 加 密 的 “内 部 ”IP 数据 报 。 由 于 “内 部 ”数据 报 的 大 小 与 内 容 可 以 通过 加 密 技 
术 隐 藏 ， 这 样 就 提供 了 一 种 流量 机 密 性 (Traffic Flow Confidentiality, TFC) 的 受 限 形式 。 如 
果 需 要 ，ESP 能 够 与 AH 结合 使 用 ， 并 且 同 时 支持 IPv4 与 IPv6。 鉴 于 性 能 的 原因 (ESP 可 
能 更 适合 流水 线 )， 在 “只 要 求 完整 性 ”的 模型 中 使 用 ESP 可 能 在 有 些 情况 下 比 AH 更 适合 。 
ESP 是 IPsec 实现 所 要 求 的 一 个 配置 选项 。 图 18-19 展示 了 对 于 ESP 传输 模式 的 封装 。 


IPv4 IPv6 


IPv4 TCP IPv6 IPv6 TCP 
头 部 | 头 部 数据 LH 扩展 头 部 数据 
(选项 ) | (选项 ) i 头 部 (选项 ) 


| IPv4 ESP 传输 模式 


IPv6 ESP 传输 模式 














IPv6 
IPv6 | 逐 跳 选项 、 目 的 | ESP 
头 部 | 选项 、 路 由 、 | 头 部 
分 段 扩展 头 部 < 
被 加 密 
被 认证 
图 18-19 IPsec ESP 用 于 对 IPv4 与 IPv6 数据 报 提供 机 密 性 (加密 )、 可 认证 性 、 完 整 性 保护 。 在 传输 
模式 下 (此 处 与 TCP 一 起 描述 )， 传 统 的 IP 数据 报 会 被 修改 以 包含 ESP 头 部 。 在 传输 模式 中 
AY ESP 允许 对 传输 负载 进行 加 密 、 认 证 以 及 完整 性 保护 
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ESP 的 传输 模式 结构 与 AH 的 传输 模式 结构 十 分 类 似 ， 除 了 其 尾部 结构 用 于 支持 ESP 的 
加 密 与 完整 性 保护 方法 (参见 18.8.3 节 )。 与 使 用 AH 一 样 ,ESP 的 传输 模式 也 不 能 用 于 分 片 。 
如 图 18-20 所 示 ， 针 对 ESP 的 隧道 模式 封装 与 AH 类 似 。 
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被 认证 
18-20 ”在 隧道 模式 下 (此 处 与 TCP 一 起 描述 ),ESP 将 一 个 传统 的 IP 数据 报 封装 在 一 个 新 的 “外 部 "下 


数据 报 中 ,该 “外 部 ”数据 报 承载 着 原始 的 数据 报 。ESP 人 允许 在 保证 内 部 数据 报 完 整 的 同时 
对 外 部 数据 报 进行 修改 (例如 ， 用 于 NAT 穿越 )。 在 很 多 应 用 中 ，ESP 比 AH 更 加 流行 





45 AH 中 一 样 ，ESP 使 用 一 个 严格 的 头 部 。 相 反 ， 整 个 ESP 结构 包含 一 个 头 部 与 一 个 尾 
部 。 如 果 ESP 用 于 完整 性 保护 机 制 中 ， 并 且 需 要 空间 来 保存 额外 的 校 验 位 (标记 为 ESP ICV), 
那么 尾部 结构 是 可 选 的 (第 二 个 )。 图 18-21 展示 了 ESP 的 结构 。 
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图 18-21 ESP 消息 结构 中 间 包 含 了 被 加 密 的 负载 。SPI 与 序列 号 构成 了 ESP 头 部 ， 而 填充 、 填 充 长 度 
以 及 下 一 个 头 部 字段 构成 了 ESP 尾部 。 当 需要 进行 完整 性 保护 时 ， 可 以 使 用 一 个 可 选 的 ESP 
ICV 尾部 
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ESP 封装 的 全 数据 报 使 用 50 作 为 协议 (IPv4 ) 或 下 一 个 头 部 (IPv6 ) 字段 的 值 。 图 
18-21 展示 了 ESP 的 负载 结构 ， 其 中 包括 SPI 与 序列 号 ， 它 们 的 使 用 方法 与 AH 中 完全 相同 。 
ESP 与 AH 的 主要 区 别 在 负载 区 域 。 该 区 域 可 能 会 受到 机 密 性 保护 (被 加 密 )， 并 且 根 据 加 密 
算法 的 具体 要 求 会 包含 一 个 长 度 可 变 的 填充 部 分 。 

负载 应 该 以 32 位 (IPv6 中 为 64 位 ) 为 边界 终止 ， 并且 最 后 两 个 8 位 字段 能 够 识别 填充 
长 度 与 下 一 个 头 部 (协议 ) 字段 值 。 如 图 18-19 与 图 18-20 所 示 ， 填 充 、 填 充 长 度 以 及 下 一 
个 头 部 字段 共同 构成 了 ESP 的 尾部 。 某 些 加 密 算 法 可 能 会 使 用 一 个 初始 向 量 (IV)。 如 果 是 
这 样 ， 那 么 IV 将 出 现 于 负载 区 域 (未 在 图 中 显示 ) 的 开始 位 置 。 为 TFC 的 目的 而 进行 的 额 
外 填充 (PRH TFC 填充 ) 允许 出 现在 负载 区 域 中 ， 位 于 ESP 尾部 之 前 (参见 [RFC4303] 中 的 
图 2 )。 它 用 于 掩饰 数据 报 的 长 度 以 抵御 流量 分 析 攻 击 ， 虽然 这 一 功能 并 没有 得 到 广泛 使 用 。 
下 一 个 头 部 字段 包含 了 从 IPv4 协议 字段 或 IPv6 下 一 个 头 部 字段 的 对 应 区 域 取 出 的 数值 ( 例 
如 ， 对 于 IPv4 为 4， 而 对 于 IPv6 为 41 )。 当 传输 一 个 空 的 将 被 丢弃 的 假 数据 包 时 ， 下 一 个 
头 部 字段 可 能 会 包含 59 这 一 数值 以 表明 “没有 下 一 个 头 部 ”。 有 时 ， 假 数据 包 是 抵御 流量 分 
析 攻 击 的 另 一 种 方法 。 

ESP ICV 是 一 个 长 度 可 变 的 尾部 ， 用 于 启用 完整 性 支持 以 及 满足 完整 性 检验 算法 的 需 
要 。 它 会 对 ESP 头 部 、 负 载 以 及 ESP 尾部 进行 计算 。 隐 藏 的 数值 (例如 ，ESN 的 高 比特 位 ) 
也 包括 在 内 。ICY 的 长 度 取决 于 所 选择 的 特定 完整 性 检验 方法 。 因 此 ， 它 会 在 相关 的 SA 建 
立 之 后 才 建 立 起 来 ， 并 且 要 求 SA 在 其 生存 期 中 不 发 生 改 变 。 

在 支持 反 重 放 时 也 会 开启 完整 性 保护 。 这 是 通过 一 个 计数 器 不 断 地 产生 序列 号 而 做 到 
的 。 当 首次 建立 SA 时 ,计数 器 的 初始 值 设 为 0。 在 被 复制 到 每 一 个 根据 SA 发 送 的 数据 报 之 
前 ， 计 数 器 增 1。 当 启用 反 重 放 (正常 的 默认 设置 ) 时 ， 发 送 者 会 检查 计数 器 是 否 还 未 封装 ， 
如 果 封 装 即 将 发 生 ， 发 送 者 就 会 创建 一 个 新 的 SA。 实现 反 重 放 的 接收 者 会 采用 一 个 有 效 的 
序列 号 窗口 (类似 于 TCP 的 接收 者 窗口 )。 序 列 号 位 于 窗口 之 外 的 数据 报 将 被 丢弃 。 

对 于 实现 审计 的 系统 而 言 ，ESP 处 理 过 程 会 导致 一 个 或 多 个 可 审计 的 事件 。 这 些 事件 包 
括 : 没有 针对 某 一 会 话 的 有 效 SA ; 交 给 ESP 处 理 的 数据 报 是 一 个 分 片 ; 反 重 放 计 数 器 将 要 
封装 ; 接收 数据 包 超出 有 效 的 反 重 放 窗 口 范 围 ; 完整 性 检验 失败 。 可 审计 的 事件 被 记录 在 一 
个 目 志 系统 中 。 这 些 事件 会 包含 一 些 元 数据 ， 比 如 SPI 数值 、 当 前 日 期 与 时 间 、 源 与 目的 IP 
地 址 、 序 列 号 以 及 IPv6 流 ID (如 果 有 的 话 )。 


18.8.3.2 ESP-NULL、 封 装 的 ESP 与 流量 可 见 性 

如 前 文 所 述 、ESP 通常 通过 加 密 提供 隐私 保护 ， 但 它 也 可 以 通过 使 用 NULL 加 密 算法 运 
行 在 只 有 完整 性 的 模式 中 。 在 某 些 情况 下 可 能 需要 使 用 只 有 完整 性 的 模式 ， 尤 其 是 在 企业 环 
境 下 ， 复 杂 的 数据 包 检 测 一 般 发 生 在 网 络 中 ， 而 机 密 性 能 够 通过 其 他 方法 得 以 实现 。 举 个 例 
F, 一些 网 络 基础 设施 会 检测 出 数据 包 中 不 受 欢迎 的 内 容 (例如 ， 恶 意 软 件 签名 )， 而 且 如 果 
出 现 违反 政策 的 情况 ， 它 会 发 出 警报 并 关闭 网 络 访问 权限 。 如 果 ESP 使 用 端 到 端的 加 密 方式 
( 即 按 其 被 设计 的 方式 )， 那 么 这 些 设 备 基 本 上 都 将 被 禁用 。 换 句 话说， 除非 这 些 设备 实 现 流 
量 可 见 性 ,否则 它们 无 法 完成 自己 的 工作 。 

当 一 个 数据 包 检 测 设 备 面 对 ESP 流量 时 ， 它 需要 判断 该 流量 是 否 已 经 被 加 密 ( 即 NULL 
加 密 是 否 被 采用 )。 鉴 于 IPsec 加 密 套 件 的 协商 是 在 ESP 之 外 (例如 ， 手 动 或 使 用 如 IKE 这 类 
协议 )， 当 前 有 两 种 方法 能 够 完成 上 述 工 作 。 第 一 种 方法 只 需要 使 用 一 些 启发 式 程序 来 进行 猜 
W [RFC5879]。 使 用 这 种 方法 的 好 处 在 于 不 需要 对 ESP 进行 任何 修改 就 能 够 实现 流量 可 见 性 。 
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男 一 种 方法 是 在 ESP 中 加 入 特定 的 说 明 来 指出 使 用 了 哪 一 种 加 密 。 封 装 ESP ( Wrapped ESP, 
WESP) [RFC5840] 是 一 个 标准 跟踪 RFC, CE ESP 数据 包 结 构 之 前 定义 了 一 个 头 部 。WESP 
使 用 了 与 ESP 不 同 的 协议 编号 (141 )， 并 且 能 够 通过 USE WESP_ MODE ( 值 为 16415)) 通 
知 负 载 与 IKE 进行 协商 。 长 度 可 变 的 WESP 头 部 包含 了 指明 负载 信息 位 置 的 字段 ， 以 及 利用 
1 位 来 指出 是 否 使 用 ESP-NULL 算法 的 标志 字段 (由 IANA 负责 维护 [ITWESP])。 虽 然 网 络 基 
础 设施 利用 WESP 使 得 判断 是 否 使 用 了 ESP-NULL 更 容易 些 , 但 是 它 的 有 效 性 依赖 于 终端 主 
机 能 否 很 好 地 利用 WESP 头 部 。 鉴 于 WESP 相对 较 新 ， 它 还 未 成 为 一 种 时 兴 的 技术 。 换 句 话 
说 ，WESP 的 格式 是 可 扩展 的 ， 一旦 在 未 来 实现 ， 还 可 以 用 于 其 他 用 途 。 


18.8.4 组 播 


IPsec 提供 了 支持 组 播 操作 的 选项 [RFC5374]， 虽 然 这 一 功能 不 会 经 常 使 用 。 最 基本 
的 形式 为 手动 密 钥 配置 ， 但 是 IPsec 也 提供 了 许多 组 播 组 的 密 钥 建立 方法 。 这 些 方法 被 称 
为 组 密 钥 管理 (Group Key Management, GKM) 协议 ， 由 组 控制 器 / 密 钥 服务 器 (Group 
Controller Key Servers, GCKS) 负责 管理 。 它 们 用 于 创建 组 安全 关联 (Group Security 
Association, GSA), GSA 包含 了 一 个 或 多 个 IPsec 安全 关联 ， 以 及 一 个 或 多 个 用 于 为 创建 
IPsec 安全 关联 而 提供 参数 的 GKM 安全 关联 [RFC3740]。 鉴 于 成 员 会 动态 地 加 入 或 离开 一 个 
组 ，GKM 协议 需要 完成 比 普通 的 双方 密 钥 建 立 协议 更 加 频繁 而 仔细 的 更 新 工作 。 这 类 协议 
已 经 成 为 许多 安全 专家 研究 的 热点 之 一 [AKNT04]。 我 们 不 会 探究 GKM 操作 的 细节 (这样 
的 解释 会 很 元 长 )， 但 是 有 兴趣 的 读者 可 以 查阅 GDOI [RFC3547] 与 GSAKMP [RFC4535] 的 
文献 。 

目前 ， 组 播 IPsec 操作 要 求 小 组 中 的 所 有 成 员 在 它们 的 算法 与 协议 处 理 过 程 中 是 同 质 的 。 
任意 源 与 单一 源 (ASM 与 SSM) 的 组 播 操 作 都 被 支持 (参见 第 9 章 )， 而 且 相 同 的 过 程 被 用 
于 IPv4 的 本 地 广播 地 址 与 IPv6 的 任意 播 地 址 。 主 机 端的 IPsec 实现 可 能 会 综合 使 用 隧道 与 
传输 两 种 模式 ， 但 是 SG 必须 使 用 隧道 模式 。 这 是 因为 此 处 的 隧道 目的 地 址 为 组 播 地 址 。 

当 使 用 隧道 模式 时 ， 由 于 外 部 IP 数据 报 的 寻 址 需要 一 个 组 播 目 的 地 址 才能 被 支持 组 播 
功能 的 基础 设备 路 由 ， 所 以 组 播 IP 数据 报 向 IPsec 提出 了 一 个 新 的 挑战 。 这 样 就 需要 在 将 数 
据 报 按照 AH 或 ESP 隧道 发 送 时 采用 一 个 特殊 的 过 程 ， 称 为 带 地 址 保护 的 隧道 模式 ( tunnel 
mode with address preservation)。 简 而 言 之 ， 这 一 过 程 会 选择 与 内 部 地 址 相 匹 配 的 外 部 IP 源 
和 目的 地 址 (假设 使 用 相同 版 本 的 IP 协 议 )。 这 样 做 的 目的 一 是 确保 数据 报 能 够 调用 组 播 
路 由 ; 二 是 保证 在 计算 组 播 路 由 工作 中 能 够 采用 反 向 路 径 转 发 (Reverse Path Forwarding, 
RPF) 检验 的 方法 (参见 第 9 章 )。 

组 播 的 引入 需要 修改 一 些 IPsec 底层 的 机 制 ， 如 图 18-10 所 示 。 例如， 需要 修改 SPD 与 
SAD 来 包含 一 个 “地 址 保护 ”标志 位 。 这 样 就 能 够 执行 带 地 址 保护 的 隧道 模式 。 此 外 ，SPD 
中 会 有 一 个 方向 性 标志 位 ， 用 于 决定 在 什么 情况 下 应 该 自动 地 创建 SA。 这 样 就 能 保证 当 对 
源 UP 地址 与 目的 IP 地 址 (与 单 播 SA 相同 ) 进行 简单 的 转换 时 ， 不 会 创建 那些 使 用 被 禁止 
的 组 播 源 地 址 的 SA。 当 需要 用 GKM 协议 时 (例如 ， 用 于 获得 一 个 需要 的 组 密 钥 )，SPD 需 
要 包含 一 些 状态 。 一 个 组 PAD (GPAD) 为 每 一 个 具体 GCKS 维护 信息 ， 其 中 包括 每 一 个 
GCKS 使 用 哪 一 个 流量 选择 器 产生 SA， 以 及 在 一 个 特殊 的 GKM 协议 中 与 特定 GCKS 一 起 
指定 的 认证 信息 。 非 GKM 协议 (比如 IKE) 并 不 需要 参考 GPAD, 但 是 PAD 与 GPAD 结构 
可 能 需要 一 起 实现 。 
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18.8.5 L2TP/IPsec 


第 2 层 隧 道 协议 (Layer 2 Tunneling Protocol, L2TP, BULL 3 章 ) 支持 第 2 层 流 量 的 
隧道 传输 ， 比 如 通过 IP 与 非 IP 网 络 的 PPP 流量 。 它 依赖 一 些 在 连接 初始 阶段 提供 认证 的 
方法 , 但 没有 对 后 续 的 每 个 数据 包 提 供认 证 以 及 完整 性 与 机 密 性 保护 。 为 了 解决 这 一 问题 ， 
L2TP 可 以 与 IPsec 结合 使 用 [RFC3193]。 这 种 结合 方式 称 作 L2TP/IPsec， 它 为 通过 第 2 层 
VPN 远程 访问 企业 (或 家 庭 ) 网 络 提供 了 一 种 推荐 方法 。IPsec 可 以 使 用 一 个 直接 的 L2TP- 
over-IP 封装 (协议 号 115) 或 使 用 一 个 简化 NAT 穿越 的 UDP/IP 封装 来 保证 L2TP 的 安全 。 

虽然 可 能 支持 其 他 的 密 钥 方法 ， 但 L2TP/IPsec 选择 IKE 作为 默认 的 方法 。 无 论 是 在 传 
输 模式 (必须 支持 ) 还 是 在 隧道 模式 (可 选 支持 )， 它 都 会 使 用 一 个 ESP SA。 这 个 SA 用 于 
保证 负责 创建 第 2 层 隧 道 的 L2TP 流量 的 安全 。 由 于 将 两 种 协议 结合 使 用 ， 而 且 每 一 种 协议 
都 涉及 认证 部 分 ， 因 此 L2TP/IPsec 通常 会 要 求 两 个 不 同 的 认证 过 程 : 一 个 针对 机 器 (使 用 
IPsec 协议 以 及 预先 共享 的 密 钥 与 证 书 )， 而 另 一 个 则 针对 用 户 〈 例 如 ， 使 用 一 个 账户 名 与 密 
码 ， 或 访问 令 牌 )。 

许多 现代 化 的 平台 都 支持 L2TP/IPsec。 在 Windows 系统 中 ， 使 用 “连接 到 工作 场所 ” 
选项 创建 一 个 新 的 连接 就 能 够 开启 L2TP 与 L2TP/IPsec。 一 些 智能 手机 (例如 ，Android、 
iPhone) 在 它们 的 网 络 配置 页 面 中 支持 对 L2TP 的 设置 。MAC OS X 包含 了 一 个 L2TP/IPsec 
网 络 适 配器 类 型 ， 它 可 以 通过 系统 喜好 设置 添加 进来 。 在 Linux 中 ， 需 要 同时 对 IPsec 与 
L2TP 进行 配置 ， 以 便 它 们 能 够 一 起 正常 工作 。 如 果 系 统 不 要 求 使 用 L2TP， 那么 可 以 直接 使 
用 IPsec。 


18.8.6 IPsec NAT 穿越 


由 于 传统 上 IP 地 址 用 于 标识 通信 双方 并 假设 它 不 会 改变 ， 因 此 使 用 带 有 IPsec 的 NAT 
从 某 种 意义 上 说 是 一 个 新 的 挑战 。 在 最 初 设计 IPsec 时 ， 这 些 假 设 并 没有 被 完全 避 开 (或 排 
除 )， 因 此 NAT 提出 了 这 一 问题 。 这 也 是 IPsec 部 署 缓慢 的 原因 之 一 。 然 而 ， 如 今 的 IPsec $ 
持 改 变 地 址 (使 用 MOBIKE) 与 NAT 穿越 。 

为 了 拥有 一 个 完整 的 NAT 穿越 方案 ， 我 们 必须 在 传输 与 隧道 两 种 模式 下 考虑 IKE、AH 
与 ESP。 正 如 我 们 将 要 看 到 的 ， 当 必须 采纳 NAT 时 ， 并 不 是 所 有 的 IPsec 组 合 都 会 对 所 有 的 
应 用 程序 有 用 。[RFC3715] 给 出 了 相关 解决 方案 的 指导 意见 。 我 们 首先 讨论 NAT 与 IPsec 之 
间 一 系列 突出 且 基 本 的 不 兼容 问题 ， 然 后 再 介绍 解决 这 些 问题 的 方法 。 

AH 中 一 个 基本 的 问题 就 是 NAT 如 何 更 新 数据 报 中 的 地 址 。 由 于 AH 的 MAC 计算 包含 
了 数据 报 的 IP 地址， 所 以 NAT 不 能 因 改 写 地 址 而 使 AH 失效 。 需 要 注意 的 是 ， 由 于 完整 性 
保护 机 制 并 不 涉及 MAC 中 的 IP 地址 计算 ， 所 以 ESP 并 不 存在 这 一 问题 。 

男 一 个 问题 是 在 UDP 与 TCP 传输 协议 中 伪 头 部 校 验 和 的 计算 结果 会 涉及 IP 地 址 。 当 
传输 层 的 校 验 和 受到 完整 性 保护 或 加 密 时 ，NAT 不 可 能 在 不 使 数据 包 失 效 的 情况 下 更 新 校 验 
和 。 类 似 的 情况 还 出 现在 NAPT 协议 改写 端口 号 时 ， 或 其 他 违反 分 层 的 协议 中 。 

第 3 个 主要 问题 涉及 IKE 的 ID 负载 。 有 多 种 方法 能 够 标识 一 个 IKE 端点 ， 其 中 一 种 
就 是 使 用 IP 地 址 。 由 于 这 些 地 址 都 被 戏 入 一 个 加 密 的 IKE 负载 中 ， 如 果 它 们 在 通过 常规 的 
NAT 时 被 修改 ， 那么 将 会 导致 失败 。 其 他 用 于 标识 端点 的 方法 仍然 是 有 效 的 (例如 ，FQDN 
或 者 X.509 证 书 上 的 可 区 分 的 名 称 )。 
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第 4 个 问题 是 NAT 或 NAPT 如 何 对 一 个 流向 正确 主机 的 流量 进行 多 路 分 解 。 在 如 UDP 
或 TCP 的 协议 中 ， 端 口号 用 于 上 述 目的 。 然 而 ，IPsec AH 与 ESP 类 似 于 传输 层 协议 ， 虽然 
不 使 用 端口 号 ， 但 会 使 用 SPI 值 。 虽 然 有 一 些 NAT 能 够 利用 SPI 值 进 行 多 路 分 解 工 作 ， 但 
这 些 值 是 由 IPsec 响应 者 作为 本 地 事件 选择 的 ， 多 个 独立 的 主机 可 能 会 选择 相同 的 值 。 由 于 
NAT 协议 不 能 轻易 地 修改 这 些 值 ， 因 此 对 于 那些 具有 潜在 传输 错误 的 〈 返 回 的 ) 流量 ， 它 可 
能 无 法 对 其 进行 正确 的 多 路 分 解 。 

如 果 使 用 IPsec， 那么 还 有 一 些 其 他 NAT 问题 会 变 得 更 加 尖锐 。 例 如 ， 如 果 使 用 下 地 
址 的 应 用 层 协议 (例如 ，SIP) 进行 了 完整 性 保护 或 加 密 ， 那 么 传统 的 NAT 将 无 法 对 其 进行 
修改 。 此 外 ， 由 于 能 够 被 解码 分 析 的 流量 会 因为 加 密 操作 而 变 得 星 涩 ， 所 以 配置 与 分 析 也 变 
得 更 加 困难 。 庆 幸 的 是 ， 如 果 提 供 足 够 的 密 钥 材料 ， 一些 网 络 分 析 工 具 (例如 ，Wireshark) 
能 够 处 理 加 密 过 的 流量 。 

解决 上 述 众多 NAT 穿越 问题 的 主要 方法 是 使 用 UDP/IP 封装 IPsec ESP 与 IKE 流量 (A 
前 还 没有 支持 AH 的 NAT 穿越 方案 )。 在 必要 的 情况 下 ，UDP/IP 是 能 够 被 传统 的 NAT 修改 
的 。 一 个 IKE 发 起 者 能 够 使 用 UDP 端口 号 500 或 4500 来 发 送 IKE， 稍 后 转 而 使 用 端口 号 
4500 发 送 UDP 封装 的 ESP 与 IKE， 无 论 是 否 有 NAT 的 要 求 。 根 据 [RFC5996]， 端 口号 500 
禁止 用 于 UDP ESP 封装 。 使 用 端口 号 4500 的 目的 在 于 避免 出 现 一 些 NAT 不 能 正常 处 理 端 
口 500 的 IPsec 流量 的 情况 。 

针对 IKE 的 NAT 穿越 是 IKE 实现 中 的 一 个 可 选 功能 。 若 支持 ， 下 面 两 个 通知 负载 需要 
包含 于 IKE SA_INIT 交 换 中 : NAT DETECTION DESTINATION IP + NAT DETECTION _ 
SOURCE 了 P。 这 两 个 负载 一 般 出 现在 Ni 与 Nr 负载 之 后 ，CERTREQ 负载 之 前 。 与 这 些 负载 相 
关 的 数据 包括 : 针对 SA 的 SPI 值 的 SHA-1 散 列 值 ， 源 或 目的 IP 地 址 ， 以 及 源 或 目的 端口 号 。 
当 IKE 消息 通过 NAT 时 ， 这 些 信息 会 被 保留 。 当 接收 到 一 条 IKE 消息 提示 存在 一 个 NAT 时 ， 
IKE 处 理 过 程 会 继续 使 用 位 于 端口 4500 的 UDP/IP 封装 ， 从 而 畅通 无 阻 地 通过 NAT。 

在 穿越 了 一 个 或 多 个 NAT 之 后 ， 到 达 的 IKE 流量 会 被 用 于 建立 一 个 传输 模式 的 SA。 该 
SA 可 能 会 包含 流量 选择 器 (TS 负载 )。 这 些 流 量 选择 器 会 带 有 P 地 址 或 无 意义 的 范围 ( 即 ， 
私有 卫 地 址 ,位 于 NAT“ 之 后 ”)， 以 及 与 到 达 响 应 者 的 IKE 数据 报 中 的 地 址 字段 所 包含 
的 IP 地 址 不 匹配 的 地 址 范围 。 通 过 将 地 址 先 保存 在 IKE 的 TSi 与 TSr 负载 中 能 够 处 理 上 述 
情况 ， 并 且 可 以 方便 后 续 使 用 ， 然 后 用 接收 到 的 数据 报 中 的 源 与 目的 IP 地 址 将 它们 替换 掉 。 
从 本 质 上 讲 ， 这 是 一 种 由 接收 者 执行 的 在 TS 负载 上 的 “延迟 NAT ”形式 。 获 得 的 数据 报 与 
TS 负载 用 于 查询 SPD ， 以 确定 被 请 求 的 SA 的 安全 策略 。 如 果 使 用 传输 模式 ， 则 响应 者 完成 
交换 ， 而 发 起 者 执行 类 似 TS 负载 的 置换 处 理 过 程 (参见 [RF5996] 的 2.23.1 节 )。 


18.8.7 例子 


有 几 种 开源 的 、 有 专利 的 IPsec 实现 。Windows 7 在 微软 的 敏捷 VPN 子 系统 中 支 
持 IKEv2 与 MOBIKE。Linux 系统 在 内 核 2.6 及 后 续 版 本 中 支持 内 核 级 别 的 IPsec， 而 
OpenSwan 与 StrongSwan 可 用 于 实现 完整 的 VPN 方案 。 在 下 面 的 例子 中 ， 我 们 将 使 用 一 个 
运行 StrongSwan(IPv4 地 址 为 10.0.0.3 ) 的 Linux 服务 器 ， 以 及 一 个 Windows 7 客户 端 (IPv4 
地 址 为 10.0.1.48 )。 该 客户 端 使 用 基于 RSA 的 机 器 证 书 来 对 IKE 进行 认证 。IKE 的 初始 交换 
如 图 18-22 所 示 。 
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Initiator cookie: e9f321ebel9efa4e 
Responder cookie: 0000000000000000 
Next payload: Security Association (33) 
version: 2.0 
Exchange type: IKE_SA_INIT (34) 
Flags: 0x08 
Message ID: Ox00000000 
Length: 528 
a Type Payload: Security association (33) 
Next payload: Key Exchange (34) 
alee osae = critical Bit: Not critical 
Payload length: 256 
œ Type Payload: Proposal 
w Type Payload: Proposal 
@ Type Payload: Proposal 
@ Type Payload: Proposal 
i Type Payload; pt 
rype payToad: propos 
Next payload: NONE 
0.，,。 . = critical 
payload length: 44 
Proposal number: 6 
Protocol ID: IKE (1) 
SPI Size: 0 
Proposal transforms; 4 
@ Type Payload: Transform (3) 
Next payload: Transform (3) 
QO... se.. = Critical Bit: Not critical 
Payload Tength: 12 
Transform Type: Encryption Algorithm (ENCR) (1) 
Transform ID €ENCR): ENCR_AES_cBC (12) 
@ Transform IkE2 Attribute Type (t=14,1=2) Key-Length : 256 
BB Type Payload: Transform (3) 
Next payload: Transform (3) 
0... .... = Critical Bit: Not Critical 
Payload length: 8 
Transform Type: Integrity Algorithm (INTEG) (3) 
Transform ID CINTEG): AUTH_HMAC_SHA2_384_192 (13) 
BB Type Payload: Transform (3) 
Next payload: Transform (3) 
Oise cae = Critical Bit: Not critical 
Payload length: 8 
Transform Type: Pseudo-random Function (PRF) (2) 
Transform ID (PRF): PRF_HMAC_SHAZ_384 (6) 
@ Type Payload: Transform (3) 
Next payload: NONE / No Next Payload (0) 
O... s... = Critical Bit: Not Critical 
Payload length: 8 
Transform Type: Diffie-Hellman Group (0-H) (4) 
Transform ID (D-H): Alternate 1024-bit MoDP group (2) 
š Type Payload: Key Exchange (34) 
细 Type Payload: Nonce (40) 
@ Type Payload: Notify (41) 
& Type Payload: notify (41) 
Next payload: NONE / NO Next Payload (0) 
QO... ssas = Critical Bit: Not Critical 
Payload length: 28 
Protocol ID: RESERVED (0) 
SPI Size: 0 
Notify Message Type: NAT_DETECTION_DESTINATION_IP (16389) 
Notification DATA: a81396b16f14b2a9c660731efa2cal9911e805bF 





SEE ere at 


图 18-22 初始 IKE 交换 的 跟踪 结果 ， 将 第 一 个 数据 包 高 亮 显 示 。IKE_SA_INIT 交换 发 生 在 UDP 500 
端口 ， 包 含 了 发 起 者 的 SPI、 关 于 加 密 套件 算法 的 建议 、DH 密 钥 交 换 材料 、 随 机 数 以 及 用 
于 指明 NAT 穿越 地 址 的 通知 负载 。SA 负载 中 的 每 一 个 建议 都 要 求 建 立 一 个 IKE_SA， 其 中 
包含 加 密 转 换 、 完 整 性 保护 、 用 于 生成 随机 数 的 PRF 、 用 于 密 钥 协 商 的 DH 组 参数 


如 图 18-22 所 示 ，Wireshark 能 够 使 用 ISAKMP 协议 解码 IKE 交换 。 这 是 一 个 现在 已 经 
过 时 的 因特网 安全 关联 与 密 钥 管理 协议 ， 它 最 终 演变 成 为 IKE HN. IKE 头 部 包含 了 发 起 者 
的 SPI (标记 为 “发 起 者 的 cookie”) 与 响应 者 的 SPI。 响 应 者 的 SPI 尚未 建立 。 版 本 编号 为 
2， 指 明 数 据 包 包含 了 IKEv2。 此 外 ， 交 换 类 型 为 IKE_SA_INIT。 
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通过 仔细 观察 可 以 发 现 ， 一 条 IKE SA_INIT 消息 包含 5 个 负载 : 一 个 SA， 一 个 KE， 
一 个 随机 数 ， 以 及 两 个 类 型 通知 。SA 负载 包含 了 6 条 建议 ， 每 一 条 建议 都 包含 一 个 转换 列 
表 。 这 些 建议 指出 了 发 起 者 愿意 使 用 的 算法 集合 。 第 6 条 建议 (最 后 一 个 ) 被 扩展 以 显示 更 
多 的 细节 。 它 建议 在 CBC 模式 下 采用 具有 256 位 密 钥 长 度 的 AES 来 进行 加 密 ， 并 采用 具 
有 SHA-256 的 HMAC 进行 完整 性 保护 ， 最 后 使 用 一 个 基于 SHA-384 的 PRF 与 一 个 备用 的 
1024 位 的 MODP 组 来 进行 DH 密 钥 协商 。 其 他 的 建议 (不 详细 介绍 ) 包含 了 关于 3DES 加 
密 、 具 有 不 同 密 钥 长 度 的 AES 加 密 、 用 于 完整 性 保护 的 SHA-1 以 及 其 他 用 于 PRF 的 SHA 
变种 的 建议 。 在 SA 负载 之 后 是 密 钥 交换 负载 ， 它 包含 了 使 用 备用 的 1024 位 MODP 4H” 来 
完成 一 个 DH 交换 的 公共 信息 。 在 其 他 负载 中 ， 我 们 发 现 随机 数 包 含 了 一 个 48 字 节 的 随机 
比特 流 ， 而 两 个 通知 负载 则 用 于 NAT 穿越 。 第 一 个 通知 负载 的 类 型 为 NAT_DETECTION 
SOURCE IP， 而 第 二 个 的 类 型 为 NAT_ DETECTION _DESTINATION IP。 第 一 种 通知 负载 
的 值 包含 了 一 个 20 字 节 的 SHA-1 散 列 值 。 该 散 列 值 是 基于 以 下 数值 生成 的 : 8 字 节 的 发 起 
者 SPI,8 字 节 的 响应 者 SPI( 此 处 为 0 ),4 字 节 的 源 IPv4 地 址 ， 以 及 2 字 节 的 UDP 源 端 口号 。 
第 二 种 通知 负载 的 值 所 覆盖 的 内 容 与 第 一 种 通知 负载 基本 相同 ， 只 是 将 源 端 口号 替换 为 目的 
端口 号 。 图 18-23 展示 了 第 一 条 IKE_SA_INIT 消息 的 响应 。 

在 图 18-22 中 ，IKE SA_INIT 消息 包含 了 以 下 负载 : SA，KE， 随 机 数 ， 三 种 类 型 通知 ， 
以 及 一 个 证 书 请 求 。SA 负载 只 包含 一 个 建议 ， 它 包括 下 面 的 转换 : 用 于 加 密 的 3DES， 用 于 
完整 性 保护 的 HMAC_SHA1 96， 用 于 随机 函数 族 PRF 的 HMAC_SHA1， 以 及 用 于 DH 交 
换 的 组 2。KE 负载 包含 了 一 个 源 于 1024 位 MODP 组 的 128 字 节 数 值 。 随 机 数 负载 包含 了 一 
个 32 字 节 的 随机 数值 以 保证 时 新 性 。 紧 接着 的 两 个 通知 负载 NAT DETECTION _ SOURCE 
IP 4; NAT_DETECTION_DESTINATION IP 在 前 文 已 经 介绍 过 ， 随 后 是 我 们 没有 遇 到 过 的 
负载 CERTREQ = MULTIPLE _AUTH_ SUPPORTED。 

证 书 请 求 (Certificate Request, CERTREQ) 负载 指明 响应 者 首选 的 证 书 。 在 这 种 情况 下 ， 
响应 者 指出 任何 由 发 起 者 支持 的 证 书 应 当 与 特定 的 证 书 颁发 机 构 相 关联 。 用 于 表示 CA 的 编 
码 定义 在 [RFC5996] 3.6 i, 但 只 有 数值 4、12、13 成 为 当前 的 标准 。 此 处 负载 包含 的 数值 
为 4， 表 示 证 书 颁发 机 构 数 据 子 字段 包含 了 一 系列 可 信 CAMA (X.509 主题 公 钥 信息 元 
素 ) 的 SHA-1 散 列 值 。 本 例 的 子 字段 只 有 20 个 字 节 ， 我 们 发 现 只 列 出 了 一 个 CA。 这 是 我 
们 创建 的 “测试 CA”。 相 应 地 ， 我 们 对 这 个 简单 根 证 书 中 的 公 钥 进行 DER 编码 ， 然 后 生成 
SHA-1 散 列 值 。 


注意 ”二进制 唯一 编码 规则 (DER) 的 格式 是 ASN.1 标准 所 定义 的 基本 编码 规 
则 (BER) 的 一 个 子 集 。DER 允许 按照 唯一 、 明 确 的 方式 对 数值 进行 编码 。DER 
是 当今 两 种 最 流行 的 编码 义 .509 证 书 的 方法 之 一 。 另 一 种 方法 是 PEM， 它 是 一 种 
ASCII 码 格 式 ， 前 文 已 经 介绍 过 。 许 多 工具 (包括 openssl) 能 够 用 于 上 述 两 种 格式 
间 的 转换 。 


图 18-23 中 最 后 一 个 负载 是 通知 负载 。 它 包含 了 MULIIPLE AUTH_ SUPPORTED 
说 明 ， 并 且 没 有 相关 数据 。 在 [RFC4739] 中 它 被 定义 为 一 个 实验 扩展 ， 表 明 具 有 使 用 多 种 
认证 方法 的 能 力 。 可 能 会 出 现下 述 情况 ， 例 如 ， 当 使 用 一 个 基于 证 书 的 IKE_AUTH 交换 来 
建立 一 个 与 服务 提供 者 的 IKE SA 时 ， 上 述 负载 之 后 会 有 一 些 面向 个 人 用 户 的 基于 EAP 的 
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Initiator cookie 
Responder cookte: 7icc31af621a3512 
A Next payload: Security Association (33) 
} version: 2.0 
Exchange type: IKE_SALINIT (34) 
iW Flags: 0x20 
Message ID: Ox00000000 
Length: 333 
fm Type Payload: Security Association (33) 
Next payload: Key Exchange (34) 
0. » = Critical Bit: Not critical 
Payload length: 44 
5 Type Payload: Proposal (2) è 1 
Next payload: NONE / No Next Payload (0) 
0.. « = Critical Bit: Not critical 
payload length: 40 
Proposal number: 1 
Protocol ID: IKE (1) 
SPI size: 0 
Proposal transforms: 4 
la Type Payload: Transform (3) 
Next payload: Transform (3) 
0.. . = Critical Bit: Not critical 
payload Tength: 8 
Transform Type: Encryption Algorithm (ENCR) (1) 
Transform ID (ENCR): ENCR_3DES (3) 
@ Type Payload: Transform (3) 
Next payload: Transform G) 
QO... n... = Critical Bit; Not critical 
payload length: 8 
Transform Type: Integrity Algorithm CINTEG) (3) 
Transform ID (INTEG): AUTH_HMAC_SHAL_96 (2) 
© Type Payload: Transform (3) 
Next payload: Transform (3) 
+ = Critical Bit: Not critical 
Poad length: 8 
Transform Type: Pseudo-random Function (PRF) (2) 
Transform ID CPRF): PRF_HMAC_SHAL (2) 
BB Type Payload: Transform (3) 
Next payload: NONE / NO Next Payload (0) 
= critical Bit: Not Critical 
Payload length: 8 
Transform Type: Diffie-Hellman Group (D-H) (4) 
Transform ID (D-H): Alternate 1024-bit MODP group (2) 
4 Type Payload: Key Exchange (34) 
W Type Payload; Nance (40) 
ia Type Payload: notify (41) 
Next payload: Notify (41) 
QO... s... = Critical Bit: Not Critical 
payload length: 28 
Protocol ID: RESERVED (0) 
SPI Size: 0 
Notify Message Type: NAT_DETECTION_SOURCE_IP (16388) 
Notification DATA: f6616abe3c97c01bb5857953089dc03c84ccl66c 
w Type Payload: Notify (41) 
Next payload: Certificate Request (38) 
0. sees = Critical Bit: Not Critical 
payload langth: 28 
Protocol ID: RESERVED (0) 
SPI Size: 0 
notify Message Type: NAT_DETECTION_DESTINATION_IP (16389) 
Notification DATA: ef3c8cc4d072ebfeef 76e6e1002aa2315567Fbalf 
"itype |Pay Toads) certificata Request Cray 
Next payload: Notify (41) 
Ossa sese = Critical Bit: Not critical 
payload length: 25 
certificate Type: x.509 Certificate - signature (4) 
certificate authority Data: 987f9dfbbB804fc08ed632549f7d6d02488810e5a 
w Type Payload: Notify (41) 
Next payload: NONE / No Next Payload (0) 
= critical Bit: not critical 
Payload length: 8 
Protocol ID: RESERVED (0) 
SPI size: 0 
Notify Message Type: MULTIPLE_AUTH_SUPPORTED (16404) 
Notification DATA: <MISSING> 





图 18-23 IKE _SA_INIT 交换 包括 响应 者 的 SPI( 标 记 为 “cookie” )、 与 转换 相关 的 唯一 建议 .DH 参数 、 
随机 数值 以 及 NAT 转换 地 址 参数 。 这 条 消息 还 包括 一 个 CERTREQ 负载 ， 用 于 指明 并 请 求 
可 接受 的 证 书 ; 一 个 通知 负载 ， 用 于 指明 所 支持 的 多 个 (成 系列 ) 认证 方法 


图 18-23 中 剩余 的 数据 包 包含 了 加 密 的 IKE AUTH 消息 。 它 们 使 用 4500 而 不 是 500 
作为 源 与 目的 端口 号 ， 并 采用 特殊 的 包含 4 字 节 0 [RFC3947] 的 “ 非 ESP 标记 ”封装 ， 从 
而 指明 流量 是 IKE 而 非 ESP。 标 记 与 端口 号 还 用 于 我 们 之 前 讨论 的 INFORMATIONAL 交 
换 中 。 

如 果 提 供 合 适 的 密 钥 与 SPI 值 ，Wireshark 能 够 解密 已 加 密 的 IKE 流量 。 通 过 为 Wireshark 
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提供 IKE 服务 器 上 的 日 志 跟 踪 文 件 副本 〈 位 于 Edit | Preferences | Protocols | ISAKMP 路 径 下 )， 
我 们 能 够 查看 加 密 的 IKE 负载 信息 。( Wireshark 开发 者 倾向 于 使 用 协议 的 原始 名 称 ， 比 如 用 
ISAKMP 与 SSL 代替 IKE 与 TLS， 因 此 Wireshark 的 输出 结果 也 会 使 用 这 些 名 称 。) 

图 18-22 中 的 第 3 个 数据 包 是 UDP/IP 数据 报 的 第 一 个 分 片 。 当 接收 到 第 2 个 分 片 ( 数 
据 包 4) 后 ，Wireshark 将 会 重组 这 个 数据 报 。 图 18-24 显示 了 解密 与 重组 后 的 结果 。 


ikew7elitd [decrypted] 





iat 
Initiator cookie: e9f32lebelsefade 
Responder cookie: 7icc3laf621a3512 
Next payload: Encrypted and authenticated (46) 
version: 2.0 
Exchange type: IKE_AUTH (35) 
a Flags: 0x08 
Message ID: 0x00000001 
Length: 1844 
w Type Payload: Encrypted and authenticated (46) 
Next payload: Identification - Initiator (35) 
= critical Bit: not critical 
Payload length: 1816 
Initialization vector: 289e871ca8981f65 (8 bytes) 
Encrypted Data (1792 bytes) 
Gi Decrypted Data (1792 bytes) 
ntained Data (1786 bytes) 
type Payload: Identification = rhitiator (359) 
Next payload: Certificate Request (38) 
QO... ene. = Critical Bit: Not critical 
Payload length: 805 
Certificate Encoding: x.509 Certificate - signature (4) 
@ Certificate Data Cid-at-commonName=test client) 
fm Type Payload: Certificate Request (38) 
@ Type Payload; Authentication (39) 
Next payload: Notify (41) 
QO... ee. = Critical Bit: Not critical 
Payload length: 264 
Authentication Method: RSA pigital Signature C1) 
Authentication Data: 55196721c83b107a380b48a67cf6b41f829c9eh9073f0dbf. .. 
a Type Payload: notify (41) 
局 Type Payload: Configuration (47) 
Next payload: Security Association (33) 
OQ... sss. = Critical Bit: Not Critical 
Payload length: 24 
Type: CFG_REQUEST (1) 
@ attribute Type: (t=1,1=0) INTERNAL_IP4_appRESS 
@ Attribute Type: (t=3,1-0) INTERNAL_IP4_DNS 
@ attribute Type: (t=4,1=0) INTERNAL_IP4_NBNS 
@ Attribute Type: (t=23456,1=0) PRIVATE USE 
& Type Payload: Security Association (33) 
Next payload: Traffic Selector - Initiator (44) 
0.. yee. = Critical Bit: Not Critical 
Payload length: 80 
因 Type Payload: Proposal (2) #1 
® Type Payload: Proposal (2) # 2 
B Type Payload: Traffic selector - Initiator (44) #2 
Next payload: Traffic Selector - Responder (45) 
QO... see. = Critical Bit: Not critical 
Payload Jength: 64 
Number of Traffic Selector: 2 
Traffic Selector Type: TS_IPV6_ADDR_RANGE (8) 
Protocol 10: Unused 
selector Length: 40 
Start Port: 0 
End Port: 65535 
starting Addr: :: C::) 
Ending Addr: ffFff:ffffiIfFfff:ffffiffff:ffff:ffffiffFf (ffffIFfffFiFfffIffffifFffIfffFf:fFFfiIffff) 
Traffic selector Type: TS_IPV4_ADDR_RANGE (7) 
Protocol ID: Unused 
Selector Length: 16 
Start Port: 0 
End port: 65535 
Starting Addr: 0.0.0.0 (0.0.0.0) 
Ending Addr: 255.255.255.255 (255.255.255.255) 
@ Type Payload: Traffic selector - Responder (45) 上 2 
Padding (5 bytes} 
Pad Length: 5 
Integrity Checksum Data: 35e21f9463059736c0599e89 (12 bytes) [correct] 





Al 18-24 IKE AUTH 交换 包含 加 密 信息 ， 并 运行 在 UDP 4500 端口 。 通 过 重组 2 个 分 片 可 以 生成 一 条 
带 有 加 密 /认证 数据 负载 的 IKE 消息 。 这 条 消息 包含 以 下 负载 : 发 起 者 标识 符 (Di) WB 
(CERT)、 证 书 请 求 (CERTREQ)、 认 证 (AUTH)、 通 知 (N), WME (CP)、 安 全 关联 (SA), 
流量 选择 器 发 起 者 (TSi) 以 及 流量 选择 器 响应 者 (TSr) 
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UDP/IPv4 分 片 在 经 过 重组 与 解密 之 后 ， 我 们 能 看 到 IKE_AUTH 交换 中 第 一 个 数据 包 的 
构成 内 容 。 客 户 端 提 供 了 下 述 IKE 负载 : IDi, CERT, CERTREQ, AUTH, N (MOBIKE 
SUPP), CP, SA, TSi 以 及 TSr。IDi 负载 包含 了 发 起 者 与 测试 客户 端的 名 称 。CERT fi 
载 包含 了 一 个 客户 端 证 书 。 该 证 书 是 由 测试 证 书 颁 发 机 构 签 署 的 ， 因 此 相关 服务 器 会 接 
受 (根据 配置 要 求 )。CERTREQ 负载 包含 了 对 测试 CA 以 及 其 他 21 个 Windows 7 客户 端 已 
知 的 CA 的 请 求 (这 里 未 显示 )。AUTH 负载 包含 了 一 个 使 用 发 起 者 的 RSA 私 钥 签名 的 数据 
W (BIL [RFC5996] 的 2.15 节 )， 它 能 够 提供 原始 的 认证 。 N(MOBIKE_ SUPPORTED) 指明 
客户 端 是 否 愿 意 遵循 MOBIKE 协议 。CP(CFG_ REQUEST) 负载 (未 详细 描述 ) 包含 了 以 下 
属性 : INTERNAL IP4 ADDRESS, INTERNAL IP4 DNS, INTERNAL IP4 NBNS 与 一 个 
PRIVATE_USE 类 型 (23456)。 这 些 负载 用 于 帮助 配置 VPN 访问 ,或 者 服务 于 DHCP 本 地 配 
置信 息 等 目的 (参见 第 6 章 )。NBNS 指 的 是 一 个 NetBIOS 名 称 服务 器 。NetBIOS 是 一 个 可 执 
行 在 若干 网 络 协议 之 上 的 API， 并 且 在 Windows 环境 下 是 通用 的 。 

图 18-24 中 的 SA 负载 描述 了 构成 CHILD_SA 的 信息 。 其 中 有 两 个 建议 (未 详细 描述 )， 
每 一 个 建议 针对 使 用 32 位 SPI 值 的 ESP (注意 IKE 使 用 64 位 的 SPI 值 )， 它 使 用 AUTH_ 
HMAC_SHA1_96 作为 完整 性 算法 ， 并 且 不 使 用 扩展 序列 号 (指明 使 用 建议 转换 )。 第 一 
个 建议 提出 使 用 ENCR_AES_CBC (256 位 密 钥 ) 用 于 加 密 ， 而 第 二 个 建议 则 提出 使 用 
ENCR_3DES。 由 于 没有 提出 N(USE_TRANSPORT MODE) 负载 ， 我 们 认为 每 一 条 建议 都 会 
在 默认 的 隧道 模式 下 使 用 ESP。 

图 18-24 中 的 流量 选择 器 (TSi 与 TSr) 负载 指出 允许 用 于 形成 SA 的 IPv4 与 IPv6 地 址 
范围 。TSi 既 包 含 TS_IPv6_ADDR RANGE， 又 包含 TS_IPv4_ADDR RANGE， 这样 就 包含 
了 全 部 的 地 址 与 端口 号 范围 。TSr (不 详细 描述 ) 包含 相同 的 值 。 

之 前 讨论 的 第 一 个 IKE_AUTH 消息 相对 复杂 并 且 需 要 不 止 一 个 1500 字 节 的 UDP/ 
IPv4 数据 报 。 在 响应 者 处 理 之 后 ， 会 产生 交换 过 程 中 的 最 终 消 息 。 图 18-25 展示 了 这 条 
消息 。 

在 图 18-25 中 ， 服 务 器 发 送 的 响应 包含 以 下 负载 : IDr, CERT, AUTH, CP(CFG_ 
REPLY), SA, TSi, TSr, N(AUTH_LIFETIME), N(MOBIKE SUPPORTED) 以 及 N (NO_ 
ADDITIONAL_ADDRESSES), Dr 负载 包含 了 一 个 DER 编码 的 服务 器 名 称 。CERT 负载 
包含 了 与 之 匹配 的 (服务 器 ) 证书 。AUTH 负载 指出 相关 私 钥 的 信息 。CP(CFG_REPLY) fit 
载 包 括 一 个 用 于 VPN 配置 的 INTERNAL IP4 ADDRESS 属性 。SA 负载 与 图 18-24 中 客 


户 端 的 SA 负载 类 似 ， 并 包含 唯一 一 条 能 够 实现 ENCR_AES_CBC (256 位 密 钥 )、AUTH_ 


HMAC_SHA1_96 以 及 非 ESN 之 间 转 换 的 建议 。 

数据 包 中 TSi 与 TSr 的 数值 被 “压缩 ”在 比 客户 端的 下 E_ AUTH 消息 更 小 的 范围 之 
内 。 在 这 种 情况 下 ，TSi 被 限制 在 唯一 的 IPv4 地 址 10.100.0.1，TSr 被 限制 在 10.0.0.0/16。 
它们 都 能 够 使 用 完全 的 端口 范围 0 ~ 65535。 这 是 一 个 相对 简单 的 压缩 情况 。 在 有 些 情况 中 
会 出 现 多 个 由 发 起 者 指出 的 间断 的 范围 子 集 ， 因 此 就 需要 生成 一 个 N(ADDITIONAL TS_ 
POSSIBLE) 负载 。 使 用 压缩 的 方法 是 为 SA 人 工地 协商 地 址 范围 。 

N(AUTH_LIFETIME) 负载 指出 认证 过 程 将 持续 至 多 2.8 小 时 (10154 秒 ， 在 跟踪 文件 
中 表示 为 000027aa)。N(MOBIKE SUPPORTED) 负载 指出 了 响应 者 是 否 支持 MOBIKE 协议 。 
N(NO_ADDITIONAL_ADDRESSES) 负载 (不 详细 描述 ) 与 MOBIKE 协议 一 起 使 用 指出 除 
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了 交换 中 使 用 的 地 址 之 外 不 再 需要 额外 的 IP 地 址 。 


ikew7clitd [decrypted] 


Initiator 
Responder cookie: 7ice3afezia3s12 
Next payload: Encrypted and Authenticated (46) 
version: 2.0 
Exchange type: IKE_AUTH (35) 
f Flags: 0x20 
Message ID: 0x00000001 
Length: 1356 
局 Type Payload: Encrypted and authenticated (46) 
Next payload: Identification - responder (36) 
= critical Bit: Not critical 
Payload length: 1328 
Initialization vector: Lel74cb2c36bl6f5 (8 bytes) 
Encrypted Data (1304 bytes) 
B Decrypted Data (1304 bytes) 
& Contained Data (1295 bytes) 
m Type Payload: Identification - Responder (36) 
ii Type Payload: Certificate (37) 
i Type Payload: Authentication (39) 
fa Type Payload: Configuration (47) 
Next payload: security Association (33) 
= Critical Bit: not critical 
Payload length: 16 
Type: CFG_REPLY (2) 
@ attribute Type: (t=1,1=4) INTERNAL_IP4_ADDRESS 
Type: INTERNAL_IP4_ADDRESS (1) 
oy s. veee = Config attribute Format: Type/Length/value (TLV) 
Length: 4 
Value: 0a640001 
INTERNAL IP4 ADDRESS: 10.100.0.1 (10.100.0.1) 
局 Type Payload; Security Association (33) 
Next payload: Traffic selector - Initiator (44) 
= critical Bit: Not critical 
Payload length: 44 
i Type Payload: Proposal (2) #1 
Type Payload?! Traffic! Selector ernie anan/Caa) Weide 
Next payload: Traffic se ector - Responder (45) 
= critical Bit: Not Critical 
Payload length: 24 
number of Traffic Selector: 1 
traffic Selector Type: TS_IPV4_ADDR_RANGE (7) 
Protocol ID: Unused 
Selector Length: 16 
Start Port: 0 
End Port: 65535 
Starting Addr: 10.100.0.1 (10.100.0.1) 
Ending Addr: 10.100.0.1 (10.100.0,.1) 
ia Type Payload: Traffic selector - Responder (45) # 1 
Hest payload: Notify (41) 
= critical Bit: Not critical 
pana length: 24 
Number of Traffic Selector: 1 
Traffic Selector Type: TS_IPV4_ADDR_RANGE (7) 
Protocol Ip: Unused 
Selector Length: 16 
Start Port: 0 
End Port; 65535 
Starting Addr: 10.0.0.0 (10.0.0.0) 
Ending Addr: 10,0.255.255 (10.0.255.255) 
局 Type Payload: Notify (41) 
Next payload: Notify (41) 
= critical Bit: Not critical 
Payload length: 12 
Protocol ID: RESERVED (0) 
SPI size: 0 
Notify Message Type: AUTH_LIFETIME (16403) 
Notification DATA: 000027aa 
i@ Type Payload: Notify (41) 
he payload: Notify (41) 
= critical Bit: not critical 
Pee length: 8 
Protocol ID: RESERVED (0) 
SPI size: 0 
Notify Message Type: MOBIKE_SUPPORTED (16396) 
Notification DATA: <MISSING> 
č Type Payload: notify (41) 
Padding (8 bytes) 
Pad Length: 8 
Integrity Checksum Data; 11867359f9bbe3df7add3fa7 (12 bytes)[correct] 


图 18-25 在 完成 了 下 E_ AUTH 交换 过 程 中 ， 响 应 者 产生 一 个 已 加 密 /认证 的 数据 负载 。 该 负载 包含 以 下 
负载 : 响应 者 标识 符 (IDr)、CERT、AUTH 、CP(CFG_REPLY)、SA、 压 缩 的 TSi TSR, W 
及 N(AUTH_LIFETIME), N(MOBIKE_ SUPPORTED) 和 NINO_ADDITIONAL ADDRESSES), 
第 一 个 CHILD_SA 现在 可 以 开始 操作 


至 此 ， 一 个 隧道 模式 的 ESP CHILD SA 已 成 功 建立 ， 并 且 数 据 流 能 够 得 到 传输 。 我 们 
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不 再 详细 地 介绍 包含 ESP 数据 包 的 流量 (它们 相对 简单 )， 而 是 跳 至 SA 的 删除 。 它 是 通过 两 
套 包含 删除 负载 的 INFORMATIONAL 交换 实现 的 ， 其 中 一 个 用 于 ESP SA， 而 另 一 个 用 于 |” 


a 


IKE SA. BI 18-26 展示 了 关闭 ESP SA 的 请 求 。 874 


Initiator cookie: e9 

Responder cookie: 71cc31af621a3512 

Next payload: Encrypted and Authenticated (46) 
version: 2.0 

Exchange type: INFORMATIONAL (37) 


Œ Flags: 0x08 
Message ID: 0x00000002 
Length: 68 
& Type Payload: Encrypted and Authenticated (46) 
Next payload: Delete (42) 
0... .... = Critical sit: Not critical 
Payload length: 40 
Initialization vector: 6bf431884d90c50c (8 bytes) 
Encrypted Data (16 bytes) 
S Decrypted Data (16 bytes) 
& Contained Data (12 bytes) 
Next payload: NONE / NG Next Payload (0) 
0.. .. = Critical Bit: Not Critical 
Payload length: 12 
Protocol ID: ESP (3) 
SPI Size: 4 
Ports 1 
Delete SPI: 6cfca5ef 
Padding (3 bytes) 
Pad Length: 3 
Integrity Checksum Data: 5e01684aa1b104945c09936F (12 bytes) [correct] 





图 18-26 MRT ESP SA 的 请 求 (通过 在 IKE SA 中 包含 SPI 值 6cfcasef) 。 删 除 负载 显示 端口 号 为 1， 
Wireshark 并 没有 对 此 进行 标记 ( 它 应 该 是 SPI 的 数值 : 1) 


在 图 18-26 中 可 以 看 到 ， 将 要 删除 的 SA 基于 一 个 来 自 客户 端的 关闭 请 求 。 与 其 他 IKE 
数据 流 类 似 ， 它 包含 了 一 个 已 加 密 与 认证 的 负载 。 这 个 加 密 的 负载 依次 包含 了 一 个 删除 负 
载 。 删 除 负载 可 指出 不 止 一 个 SPI 将 被 删除 ， 但 在 本 例 中 它 指 的 是 数值 为 0x6cfea5ef 的 SPI. 
来 自 响应 者 的 数据 包 7 大致 相同 ,但 是 在 标志 位 字段 拥有 不 同 的 设置 (响应 者 代替 发 起 者 ， 
响应 代替 请 求 )， 同 时 在 加 密 IV 与 完整 性 校 验 数据 部 分 也 有 不 同 的 内 容 。 数 据 包 7 还 在 删除 
负载 部 分 指出 了 一 个 不 同 的 SPI (数值 为 c348faf2 )。 l 

要 关闭 IKE_ SA， 还 需要 另 一 个 INFORMATIONAL 消息 的 交换 。 发 起 者 首先 发 送 图 
18-27 中 的 数据 包 。 我 们 可 以 看 到 一 个 关闭 IKE SA 的 请 求 。 删 除 负载 需要 与 其 他 流量 一 样 
进行 加 密 ， 但 是 因为 是 通过 IKE SA 来 传输 删除 请 求 ， 所 以 不 需要 包含 一 个 SPI 数值 。 为 
了 完成 IKE SA 删除 ， 响 应 者 将 在 数据 包 9 中 包含 一 个 空 的 加 密 /认证 负载 类 型 的 IKE 消 
息 。 它 的 下 一 个 负载 类 型 字段 设置 为 NONE (0)。 这 样 就 表明 已 经 完成 了 IKE SA 的 删除 。 [875 
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wicli.td [decrypted] 


Responder cookie: 7icc3laf621a3512 
Next payload: Encrypted and authenticated (46) 
version: 2.0 
Exchange type: INFORMATIONAL (37) 
@ Flags: 0x08 
Message ID: 0x00000003 
Length: 68 
@ Type Payload: Encrypted and Authenticated (46) 
Next payload: Delete (42) 
0. .... = Critical Bit: Not Critical 
payload length: 40 
Initialization vector: 86ebf4d5838b3dced (8 bytes) 
Encrypted Data (16 bytes) 
& Decrypted Data (16 bytes) 
= | Data T bay 
- & Type Payload: del mse RN 
Next pay toa: oe 7 NO Next ie Om 
0 = critical Bit: Not Critical 
Payload length: 8 
Protocol ID: IKE (1) 
SPI size: 0 
Port: 0 
Padding (7 bytes) 
Pad Length: 7 
Integrity Checksum Data: 3cdcf499606184458ef7f5a7 (12 bytes) [correct] 





图 18-27 删除 IKE SA 的 请 求 。 由 于 整 条 消息 都 是 通过 IKE SA 传输 的 ， 
所 以 不 需要 SPI 数值 ， 而 且 不 会 存在 不 明确 之 处 


18.9 ”传输 层 安 全 (TLS 和 DTLS ) 


之 前 已 经 讨论 过 第 2 层 与 第 3 层 的 安全 协议 。 运 行 在 传输 层 之 上 的 最 流行 的 安全 协议 是 
传输 层 安 全 (Transport Layer Security, TLS). TLS 用 于 保证 Web 通信 以 及 其 他 流行 协议 的 
安全 ， 比如 POP、IMAP ( 当 使 用 TLS 保护 后 ， 它 们 被 分 别称 为 POP3S 与 IMAPS)。TLS fit 

行 的 一 个 原因 是 它 能 够 在 应 用 程序 内 部 或 底部 实现 ， 而 这 些 应 用 程序 是 运行 于 底层 之 上 的 。 
一 些 协议 比如 EAP 与 IPsec 通常 要 求 在 操作 系统 内 部 或 者 主机 与 做 和 人 式 设备 的 协议 上 来 实现 
功能 。 

TLS 以 及 它 的 前 身 安 全 套 接 字 层 (Secure Sockets Layer, SSL [RFC6101]) 有 多 个 版 本 。 
本 书 将 关注 最 近 起 草 的 TLS 1.2 版 本 [RFC5264]。TLS 1.2 支持 向 下 兼容 大 多 数 旧 版 本 的 TLS 
与 SSL (例如 ，TLS 1.0, 1.1 以 及 SSL 3.0 ) 然而 ，TLS 1.2 对 SSL 2.0 的 支持 较 弱 ， 但 是 它们 
之 间 的 互 操作 是 可 以 实现 的 。 现 在 SSL 2.0 已 经 禁止 使 用 [RFC6176]。TLS 1.2 运行 在 面向 流 
的 协议 (通常 为 TCP) 之 上 。 在 完成 对 它 的 讨论 之 后 ， 本 书 将 介绍 面向 数据 报 的 版 本 ， 称 为 
数据 报 传输 层 安 全 ( DatagramTransport Layer Security，DTLS [RFC4347]). DTLS 正 逐 步 在 
一 些 不 使 用 IPsec 的 应 用 程序 中 流行 起 来 ， 比 如 VPN 实现 。 它 当前 的 草案 是 基于 TLS 1.1 版 
本 [RFC4346]， 但 是 更 新 工作 也 正在 进行 中 [IDDTLS]。 


EA: THEF MUIR, PRAHI, BRAZA, DNS EA, KEBABS OF 623 


18.9.1 TLS 1.2 


TLS 的 安全 目标 与 IPsec 类 似 , 但 TLS 运行 在 更 高 的 层次 之 上 。 它 在 多 种 加 密 套件 的 基 
础 上 提供 机 密 性 与 数据 完整 性 (这些 加 密 套件 往往 会 使 用 PKI 提供 的 证 书 )。TLS 还 能 够 在 
两 个 匿名 通信 方 之 间 建 立 安 全 连接 (不 使 用 证 书 )， 但 这 一 应 用 很 容易 受到 MITM 攻击 (由 
于 双方 没有 更 好 地 进行 身份 识别 ， 所 以 受到 此 类 攻击 也 不 足 为 奇 )。TLS 协议 本 身分 为 两 层 ， 
称 为 记录 层 与 上 层 。 记 录 协 议 实现 记录 (下) 层 ， 并 假设 位 于 一 个 可 靠 的 底层 协议 之 上 ( 例 
如 TCP)。 图 18-28 展示 了 基本 的 组 织 形 式 。 


密码 变更 和 be 


记录 层 


(记录 协议 ) 
加 密 与 完整 性 保护 


图 18-28 TLS 协议 “ 栈 ” 包 括 位 于 底部 的 记录 层 以 及 上 层 协议 〈 称 为 信息 交换 协议 ) 中 的 三 个 协议 。 
第 4 个 上 层 协议 是 使 用 TLS 的 应 用 协议 。 记 录 层 提供 分 片 、 压 缩 、 完 整 性 保护 以 及 加 密 功 
能 。 担 手 协议 为 TLS 完成 的 许多 工作 类 似 于 IKE 为 IPsec 所 做 的 工作 





TLS 是 一 个 客户 端 / 服 务 器 协议 ， 设 计 用 于 为 两 个 应 用 程序 的 连接 提供 安全 。 记 录 协 议 
提供 分 片 、 压 缩 、 完 整 性 保护 以 及 对 客户 端 与 服务 器 之 间 所 交换 数据 的 加 密 服 务 。 信 息 交 换 
(handshaking) 协议 负责 建立 身份 、 进 行 认 证 、 提 示警 报 ， 以 及 为 用 于 每 一 条 连接 的 记录 协 
议 提供 唯一 的 密 钥 材 料 。 信 息 交 换 协 议 包含 了 4 个 特殊 的 协议 : 握手 协议 、 警 告 协 议 、 密 码 
变更 协议 以 及 应 用 数据 协议 。 与 IPsec 类 似 ，TLS 是 可 扩展 的 ， 能 容纳 当前 或 未 来 的 加 密 套 
件 一 一 TLS 称 其 为 密码 套件 (Cipher Suite，CS)。 目 前 已 经 定义 了 多 种 组 合 ，IANA 维护 了 
当前 集合 的 注册 表 [TLSPARMS]。 当 前 TLS 的 版 本 都 基于 SSL 3.0， 源 自 Netscape。TLS 与 
SSL 并 不 能 直接 进行 互 操作 ， 但 是 一 些 协 商机 制 允许 客户 端 与 服务 器 在 连接 首次 建立 时 动态 
地 发 现 该 使 用 哪 一 种 协议 。 

密码 变更 协议 用 于 改变 当前 运行 的 参数 。 它 首先 通过 握手 协议 建立 “ 挂 起 ”状态 ， 随 后 
通过 一 个 指示 从 当前 状态 切换 至 挂 起 状态 ( 稍 后 又 会 返回 当前 状态 )。 这 些 切换 只 有 在 挂 起 
状态 准备 完毕 后 才 被 允许 。TLS 基于 5 个 加 密 操作 : 数字 签名 、 流 密码 加 密 、 分 组 密码 加 密 、 
认证 加 密 相关 的 数据 (AEAD) 以 及 公 钥 加 密 。 为 实现 完整 性 保护 ，TLS 记录 层 使 用 基于 散 
列 的 消息 认证 码 (HMAC)。 为 生成 密 钥 ，TLS 1.2 使 用 一 个 基于 HMAC ( 它 采 用 SHA-256 
算法 ) 的 伪 随 机 函数 族 (PRF)。TLS 还 整合 了 一 个 可 选 的 压缩 算法 一 一 该 算法 在 连接 首次 建 
立时 由 双方 协商 。 


18.9.1.1 TLS 记录 协议 

记录 协议 使 用 一 个 可 扩展 的 记录 内 容 类 型 值 集合 来 识别 可 多 路 复 用 的 消息 类 型 ( 即 高 层 
协议 是 哪 一 种 )。 在 任何 给 定 的 时 间 点 ， 记 录 协 议 有 一 个 活跃 的 当前 连接 状态 和 一 组 被 称 为 
挂 起 连接 状态 的 状态 参数 。 每 一 个 连接 状态 又 进一步 被 划分 为 读 状 态 与 写 状态 。 每 一 个 状态 
都 会 指定 一 个 压缩 算法 、 加 密 算法 以 及 用 于 通信 的 MAC 算法 ， 同 时 还 包括 必需 的 密 钥 与 参 
数 。 当 一 个 密 钥 被 交换 时 ，TLS 首先 会 使 用 握手 协议 建立 挂 起 状态 ， 然 后 通过 一 个 同步 操作 
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(通常 使 用 密码 变更 协议 完成 ) 将 当前 状态 设置 为 挂 起 状态 。 当 首次 被 初始 化 时 ， 所 有 状态 被 
设置 为 未 加 密 、 未 压缩 以 及 无 MAC 过 程 。 

记录 协议 的 处 理 流程 如 图 18-29 所 示 。 它 将 高 层 信息 块 (分 片 ) 划分 为 称 作 TLS 明文 
记录 的 记录 。 该 记录 最 长 为 2* 字 节 (但 通常 远 小 于 这 个 数值 )。 对 记录 大 小 的 选择 仍 保留 
在 TLS 中 ， 高 层 消 息 的 边界 不 会 被 保留 。TLS 明文 记录 一 旦 形成 ， 就 会 使 用 一 种 能 在 当前 
连接 状态 中 识别 的 压缩 算法 [RFC3749] 进行 压缩 。 总 有 一 种 压缩 协议 是 有 效 的 ， 虽然 它 可 能 
(通常 ) 是 NULL 压缩 协议 (不 提供 任何 压缩 也 不 足 为 奇 )。 压 缩 算法 将 TLS 明文 记录 转换 为 
TLS 压缩 结构 。 压 缩 算 法 应 该 是 无 损 的 ,产生 的 输出 结果 不 能 大 于 输入 记录 1KB。 为 了 防止 
负载 被 披露 或 修改 ， 加 密 与 完整 性 保护 算法 会 将 TLS 压缩 结构 转换 为 能 够 在 底层 传输 层 连 接 

上 发 送 的 TLS 密 文 结构 。 


0 1516 31 
内 容 类 型 ( 8 位 ) | 主要 版 本 (8 位 ) | 次 要 版 本 (8 位 ) | KEE (高 8 位 ) 
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内 容 类 型 (8 位 ) | 主要 版 本 (8 位 ) | 次 要 版 本 (8 位 ) | KE (高 8 位 ) 


长 度 ( 低 8 位 ) 


压缩 负载 分 片 TLS 压 缩 结构 
1 (可 变 ， 最 大 1024+21 字 节 ) 


0 15 16 31 | 加 密 / 认 证 























主要 版 本 (8 位 ) | 次 要 版 本 (8 位 ) | KE (高 8 位 ) 
ABE ( 低 8 位 ) 
已 加 密 / 受 保护 的 负载 TLS 密 广 


(加密 +MAC+[ 填 充 /填充 长 度 ] ) 或 
1 ( 随机 数 + 被 签名 加 密 部 分 ) | 发 送 至 传输 层 


图 18-29 TLS 记录 层 开 始 于 TLS 明文 记录 。 它 通过 一 个 无 损 的 压缩 算法 生成 一 个 TLS 压缩 记录 。 
TLS 压缩 记录 经 过 加 密 (包括 MAC) 生成 一 个 可 用 于 传输 的 TLS 密 文 记录 。 传 统 的 流 或 分 
组 密码 要 求 一 个 MAC， 分 组 密码 可 能 会 包含 填充 数据 。 当 使 用 AEAD 密码 时 ， 加 密 与 完整 
性 保护 的 内 容 中 会 包含 一 个 随机 数 ， 并 且 不 需要 单独 的 MAC 


参照 图 18-29， 当 产生 一 个 TLS 密 文 结构 时 ， 首 先 会 计算 一 个 序列 号 (但 不 放 在 消息 
中 )， 然 后 会 根据 需要 计算 一 个 消息 认证 码 (MAC)， 最 后 进行 对 称 加 密 。 在 加 密 之 前 ， 消 
息 可 能 会 被 填充 (多 达 255 字 节 ) 以 满足 加 密 算 法 所 要 求 的 分 组 长 度 〈 例 如 ， 分 组 加 密 )。 
AEAD 算法 (例如 ，CCM、GCM) 不 需要 MAC 就 能 够 提供 完整 性 保护 与 加 密 功能 ， 但 它 需 
要 一 个 随机 数 。 

记录 协议 的 密 钥 源 自 于 一 个 主 密 钥 (master secret) 一 一 它 是 通过 记录 协议 之 外 的 其 他 方 
法 提供 的 ， 绝 大 多 数 情况 下 使 用 握手 协议 。 根 据 主 密 钥 以 及 在 连接 开始 时 由 客户 端 与 服务 器 
应 用 程序 提供 的 随机 值 可 以 生成 下 面 的 密 钥 
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M, | M, | D, | D, | IV, | IV,=PRF(master_secret,"key expansion’, 
server_random + client_random) 

在 上 述 表 达 式 中 ,“|” 是 分 隔 运 算 符 ,“+” 是 连接 运算 符 。M 表示 用 于 客户 端的 MAC 
HRH, M 表示 用 于 服务 器 的 MAC EEH, D 表示 客户 端的 数据 写 密 钥 ，D, 表示 服务 
器 的 数据 写 密 钥 ，IV。 表示 客户 端的 初始 向 量 (V), IV, 表示 服务 器 的 初始 向 量 。 通 过 “|” 
运算 符 ， 每 个 密 钥 使 用 了 PRF 函数 要 求 的 多 个 字 节 。MAC、 加 密 以 及 IV 密 钥 在 使 用 时 会 
根据 选择 的 加 密 套 件 而 固定 长 度 。 最 后 两 个 值 只 用 于 AEAD 加 密 中 隐 式 地 产生 随机 数 (SB 


JL [RFC5116] 3.2.1 节 )。 根 据 [RFC5246]， 加 密 套 件 需 要 的 最 常见 材料 是 AES 256_CBC_ 


SHA256。 它 要 求 4 个 32 字 节 的 密 钥 ， 合 计 128 字 节 。 


18.9.1.2 TLS 信息 交换 协议 

TLS 有 3 个 子 协议 ， 它 们 的 主要 任务 与 IPsec 中 的 IKE 大 致 相同 。 更 具体 地 说 ， 这 些 协 
议 是 通过 数字 分 辨 的 。 这 些 数字 被 记录 层 用 于 多 路 复 用 与 多 路 分 解 ， 比 如 握手 协议 〈22 )、 
警告 协议 (21 )、 密 码 变 更 协议 (20 )。 密 码 变更 协议 非常 简单 。 它 包括 一 个 单字 节 的 消息 ， 
该 字 节 的 数值 为 1。 该 消息 的 目的 在 于 指出 通信 一 方 希 望 将 当前 状态 修改 为 挂 起 状态 。 如 果 
收 到 这 条 消息 ， 就 将 读 挂 起 状态 作为 当前 状态 ， 并 指示 记录 层 尽 快 转换 至 挂 起 写 状 态 。 这 条 
消息 将 同时 用 于 客户 端 与 服务 器 。 

警告 协议 用 于 从 TLS 连接 的 一 端 向 另 一 端 传递 状态 信息 。 它 可 以 包括 一 些 终止 条 件 〈 无 
论 是 致命 的 错误 或 是 可 控 的 关机 ) 或 非 致命 的 错误 条 件 。 在 公布 的 [RFC5246] H, 将 24 条 
警告 消息 定义 为 标准 。 其 中 有 超过 一 半 的 消息 始终 是 致命 的 (例如 ， 坏 的 MAC、 丢 失 或 来 
历 不 明 的 消息 、 算 法 故障 )。 

握手 协议 建立 了 与 连接 相关 的 运行 参数 。 它 允许 TLS 端点 完成 6 个 主要 目标 : 协商 加 
密 算法 并 交换 形成 对 称 密 钥 时 使 用 的 随机 值 ; 建立 算法 运行 参数 ; 交换 证 书 并 执行 互相 认证 ; 
生成 特定 的 会 话 密 钥 ; 为 记录 层 提供 安全 参数 ; 验证 所 有 的 操作 都 已 正确 执行 。 图 18-30 展 
示 了 需要 的 消息 。 

18-30 展示 的 握手 过 程 是 以 Hello 消息 开始 的 。 通 常 由 客户 端 向 服务 器 发 送 第 一 条 
客户 端 Hello (ClientHello) 消息 。 该 消息 包含 一 个 会 话 标识 符 、 建 议 的 加 密 套 件 编号 (图 
18-30 中 的 CS) 以 及 一 套 可 接受 的 压缩 算法 (虽然 [RFC3749] 也 定义 了 DEFLATE， 但 通常 
为 NULL)。TLS 支持 超过 250 个 加 密 套件 选项 [TLSPARAMS]。 

客户 端 Hello 消息 还 包含 TLS 的 版 本 号 与 一 个 称 为 ClientHello.random 的 随机 数 。 接 收 
到 客户 端 Hello 消息 ， 服 务 器 会 检查 其 中 的 会 话 标识 符 是 否 在 其 缓存 中 。 若 是 ， 则 服务 器 可 
能 会 通过 一 个 简化 的 握手 过 程 继续 之 前 已 有 的 连接 ( 称 为 “重新 开始 ” )。 该 简化 的 握手 过 
程 是 影响 TLS 性 能 的 关键 。 它 可 以 避免 重复 认证 端点 身份 的 工作 ， 但 它 也 要 求 通信 两 端 具 
有 相同 的 密码 协议 。 服 务 器 Hello ( ServerHello) 消息 通过 将 服务 器 的 随机 数 ( ServerHello. 
random) 传递 至 客户 端 完成 了 交换 的 第 一 部 分 。 这 条 消息 也 包含 了 一 个 会 话 标识 符 。 如 果 它 
的 数值 与 客户 端的 数值 相同 ， 则 表明 服务 器 愿意 重新 开始 。 和 否则 ， 它 的 数值 为 0 表示 需要 开 
启 一 个 完整 的 握手 过 程 。 

如 果 执 行 一 个 完整 的 (无 简化 ) 握手 过 程 ， 交 换 Hello 消息 会 使 得 每 一 端 都 能 够 了 解 加 
密 套件 、 压 缩 算法 以 及 它们 的 随机 值 。 服 务 器 会 在 客户 端 指出 的 加 密 套 件 中 进行 选择 。 如 果 
服务 器 需要 通过 身份 验证 ， 会 要 求 它 在 证 书 (Certificate) 消息 中 提供 自己 的 证 书 链 (这 是 安 
全 Web 与 HTTPS 中 的 典型 情况 )。 如 果 证 书 的 签名 是 无 效 的 ， 那 么 服务 器 可 能 还 需要 发 送 


626 #18 FZ 


一 个 服务 器 密 钥 交 换 消息 ， 使 其 在 没有 证 书 的 情况 下 通过 一 个 暂时 的 或 短暂 的 密 钥 生成 会 话 
客户 端 服务 器 


Cli 
(Session ine 
{extensions} Tr 









Exchange 





ServerKey 
CertificateReauest 


gervertiellobon? 





简化 的 握手 
(重新 开始 ) 





简化 的 握手 
(重新 开始 ) 


图 18-30 正常 的 TLS 连接 初始 交换 包括 若干 条 消息 ， 按 流水 线 的 方式 排列 。 需 要 的 消息 用 实心 箭头 
与 黑体 字 表 示 。 如 果 之 前 存在 的 连接 能 够 重新 启动 ， 那 么 就 使 用 简化 的 交换 过 程 。 这 样 就 避 
免 了 端点 的 认证 工作 ， 使 处 理 能 力 有 限 的 系统 能 够 节省 资源 


注意 ”服务 器 密 钥 交换 消息 ( ServerKeyExchange) 仅 用 于 证 书 (服务 器 ) 消息 没有 包 
含 足够 的 信息 来 建立 预 置 密 钥 ( premaster secret) 的 情况 。 这 种 情况 包括 匿名 或 短暂 
的 DH 密 钥 协议 ( 即 密码 套件 以 TLS_DHE anon、TLS_DHE DSS vA& TLS_ DHE_ 
RSA 开头 )。 服 务 器 密 铀 交换 消息 不 用 于 其 他 套件 ， 包 括 那些 以 TLS RSA、TLS _ 
DH DSS 或 TLS DH RSA 开头 的 套件 。 


此 时 ， 服 务 器 可 能 会 要 求 对 客户 端 进行 身份 验证 。 如 果 是 这 样 ， 它 将 会 产生 一 个 
证 书 请 求 消息 。 一 旦 这 条 消息 发 送出 去 ， 服务器 通过 发 送 强 制 性 的 服务 器 Hello 完成 
( ServerHelloDone) 消息 完成 交换 的 第 二 部 分 。 当 接收 到 来 自 服务 器 的 这 一 条 消息 (可 能 是 
管道 传输 的 )， 客 户 端 可 能 会 被 要 求证 明 自 己 的 身份 ( 即 ， 拥有 与 证 书 相 对 应 的 密 钥 )。 如 果 
是 这 样 ， 它 首先 通过 一 条 与 服务 器 格式 相同 的 证 书 消 息 发 送 自己 的 证 书 ， 然 后 发 送 强制 性 的 
客户 端 密 钥 交换 ( ClientKeyExchange) 消息 。 这 条 消息 的 内 容 依赖 于 使 用 的 密码 套件 ， 但 它 
通常 包含 一 个 RSA 加 密 的 密 钥 ， 或 用 于 创建 新 密 钥 种 子 的 Diffie-Hellman 协议 参数 (被 称 为 
预 置 密 钥 )。 最 后 ， 它 发 送 一 个 证 书 验证 (CertificateVerify) 消息 以 证 明 在 服务 器 要 求 客户 端 
验证 身份 的 情况 下 自己 拥有 与 之 前 提供 的 证 书 对 应 的 私 钥 。 这 条 消息 包含 对 一 个 散 列 值 的 签 
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名 。 该 散 列 值 是 根据 客户 端 之 前 收 到 的 以 及 发 送 的 所 有 握手 消息 生成 出 来 的 。 
交换 的 最 后 一 部 分 包含 一 个 修改 密码 协议 ( ChangeCipherSpec) 消息 ， 这 是 一 个 独立 的 
TLS 协议 内 容 类 型 ( 即 ， 从 技术 上 看 不 是 一 个 握手 协议 消息 )。 然 而 ， 只 能 在 成 功 交 换 修改 
密码 协议 消息 后 才能 进一步 交换 强制 性 的 握手 协议 已 完成 (Finished) 消息 。 已 完成 消息 是 迄 
今 为 止 第 一 批 通过 使 用 已 交换 的 参数 来 保护 的 消息 。 已 完成 消息 本 身 包 含 “ 验 证 数据 "， 由 
下 面 的 值 组 成 : 
verify_data = PRF(master_secret, finished_label, Hash(handshake_messages)) 


其 中 finished label 可 取 两 个 值 ， 值 “ client finished ”用 于 客户 端 ， 而 值 “server finished” 
用 于 服务 器 。 特 定 的 散 列 函数 Hash 与 在 初始 Hello 消息 交换 阶段 PRF 的 选择 密切 相关 。 
TLS 1.2 提供 了 可 变 长 度 的 验证 数据 ， 但 是 之 前 所 有 的 版 本 与 当前 加 密 套 件 都 产生 12 字 节 的 
验证 数据 。48 字 节 的 master_secret 值 根据 下 式 进 行 计 算 : 

master_secret = PRF(premaster secret, “master secret”, 

ClientHello.random + ServerHello.random) 

此 处 + 是 连接 运算 符 。 已 完成 消息 是 十 分 重要 的 ， 这 是 由 于 它 在 很 高 程度 上 证 实 了 握手 协议 
已 经 成 功 完成 ， 并 人 允许 之 后 的 数据 交换 。 
18.9.1.3 TLS 扩展 

迄今 为 止 ， 本 书 已 经 介绍 了 JIKE 与 TLS。 如 果 比 较 它 们 的 功能 ， 我 们 会 发 现 IKE 携带 
的 信息 能 够 超出 建立 基本 SA 所 需 的 信息 。 这 是 通过 使 用 IKE 通知 与 配置 负载 完成 的 。 为 
了 提供 类 似 的 扩展 机 制 ，TLS 1.2 消息 以 一 种 标准 的 方式 包含 了 多 种 扩展 。TLS 的 基准 规范 
[RFC5246] 包括 一 个 “签名 算法 ”扩展 。 这 样 客户 可 以 用 它 来 为 服务 器 指出 自己 可 提供 的 散 
列 与 签名 算法 类 型 (用 于 散 列 的 MD5、SHA-1、SHA-224、SHA-256、SHA-384、SHA-512 
以 及 用 于 数字 签名 的 RSA、DSA、ECDSA)。 由 于 一 些 系统 只 允许 特定 的 组 合 ， 这 些 扩展 会 
按照 偏好 程度 降序 排列 。 文 档 [TLSEXT] 给 出 了 当前 的 扩展 列表 。 

TLS 之 前 的 版 本 大 约 有 6 个 扩展 ，[RFC6066] 将 这 些 扩展 都 更 新 至 TLS 1.2 中 。 它 定义 
了 下 列 扩 展 : server name (按照 DNS 风格 显示 的 服务 器 名 称 )，max _ fragment_ length (一 条 
消息 的 最 大 长 度 为 22 字 节 , n 的 值 为 9 ~ 12), client_certificate_url (指明 支持 证 书 URL 握 
手 消 息 ， 该 消息 用 于 发 送 证 书 的 URL 而 不 是 一 个 完整 的 证 书 )，trusted_ca_keys( 散 列 值 , 或 
受信 任 的 CA 公 钥 名 称 以 及 证 书 )，truncated_ hmac (只 使 用 HMAC 的 前 80 位 进行 计算 )， 以 
及 status_request (请求 服务 器 使 用 OCSP 协议 ， 并 在 证 书 状态 握手 消息 中 提供 DER 编码 的 
响应 来 验证 一 个 证 书 )。 每 一 个 扩展 都 可 能 出 现在 一 个 (扩展 的 ) 客户 端 Hello 消息 中 ， 在 某 
些 情况 下 可 能 会 出 现在 服务 器 Hello 消息 中 来 表示 同意 。 除 了 这 些 扩 展 与 已 经 提 到 的 两 个 握 
手 消息 ，[RFC6066] 还 定义 了 4 个 警告 消息 : certificate_unobtainable、unrecognized_name、 
bad _ certificate status response 以 及 bad _ certificate hash_value。 它 们 都 是 自 说 明 的 ， 除 非 节 
点 已 经 证 明 能 够 理解 扩展 的 客户 端 Hello 类 型 消息 ， 否 则 它们 不 会 被 发 送出 去 。 

其 他 几 个 扩展 也 已 被 定义 或 保留 。user mapping 扩展 [RFC4681] 提供 了 一 种 为 用 户 标 
识 符 (例如 ，Windows 域 ) 提供 内 容 的 方法 。 另 一 个 cert_type 扩展 不 仅 包括 X.509 证 书 ， 还 
包括 OpenPGP 证 书 [RFC6091]。 信 息 文 档 [RFC4492] 描述 了 椭圆 曲线 密码 套件 。 根 据 信息 
文档 [RFC5054] 定义 的 方法 ， 安 全 远程 密码 协议 (Secure Remote Password protocol, SRP) 
能 够 与 TLS 结合 。[RFC5764] 定义 了 一 个 use_srtp 扩展 ， 该 扩展 被 设计 用 于 生成 一 个 基于 
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DTLS (参见 18.9.2 47) 的 安全 实时 协议 ( Secure Real-Time Protocol, SRTP). SessionTicket 
TLS 扩展 [RFC5077] 定义 了 一 种 方法 ， 用 于 消除 服务 器 上 必须 存储 的 用 于 恢复 会 话 的 状态 。 
它 涉 及 将 必要 的 状态 以 一 种 加 密 形 式 放 和 客户 端 中 。 最 后 ， 一 个 重要 的 renegotiation_info 扩 
展 用 于 应 对 重新 协商 的 漏洞 。 我 们 将 在 下 面 的 章节 对 其 进行 详细 介绍 。 


18.9.1.4 ”重新 协商 

TLS 支持 在 保持 同一 连接 的 同时 重新 协商 加 密 连 接 参 数 。 这 一 功能 能 够 通过 服务 器 或 客 
户 端 发 起 。 如 果 服 务 器 希望 重新 协商 连接 参数 ， 它 会 生成 一 个 Hello 请 求 消息 ， 而 客户 端 会 
响应 一 个 客户 端 Hello 消息 以 开启 重新 协商 过 程 。 客 户 端 也 能 够 自发 地 生成 一 个 客户 端 Hello 
消息 ， 而 无 须 服 务 器 的 提示 。 

虽然 是 否 支持 重新 协商 是 可 选 的 , 但 “强烈 推荐 ”使 用 ,例如 ， 在 对 序列 号 进行 封装 的 
情况 下 。 可 以 通过 生成 一 个 no_renegotiation (类 型 100 ) 警告 来 拒绝 进行 协商 。 虽 然 这 类 警 
告 不 要 求 终止 连接 ， 但 根据 本 地 策略 在 收 到 它们 之 后 将 会 终止 连接 。 

2009 年 ， 一 个 使 用 重新 协商 功能 的 TLS 攻击 被 成 功 实 施 。 我 们 将 会 在 18.12 节 对 其 
进行 详细 描述 。 这 一 漏洞 允许 攻击 者 与 服务 器 建立 一 个 恶意 的 TLS 会 话 。 客 户 端 能 够 通过 
MITM 攻击 将 该 会 话 转 接 到 一 个 后 续 的 合法 会 话 中 。 服 务 器 只 会 认为 发 生 了 一 个 符合 标准 的 
重新 协商 。[RFC5764] 给 出 了 这 一 问题 的 解决 方案 ， 即 利用 一 个 称 为 renegotiation_ info (类 
型 0xff01 ) 的 TLS 扩展 将 重新 协商 与 当前 会 话 更 紧密 地 绑 定 在 一 起 。 当 创建 一 个 新 连接 时 ， 
renegotiation_info 扩展 为 空 ， 当 客户 端 进行 重新 协商 时 ， 它 包含 client_verify_data ; 而 当 服 
务 器 进行 重新 协商 时 ， 它 包含 client verify data 以 及 server_verify data, client_verify data 
是 客户 端 在 完成 最 后 一 次 握手 时 所 发 送 的 已 完成 消息 中 包含 的 verify_ data。 在 TLS 中， 这 是 
一 个 12 字 节 的 数值 (SSL v3 中 为 36 字 节 )。server verify data 是 服务 器 在 完成 最 后 一 次 握 
手 时 所 发 送 的 已 完成 消息 中 的 verify_data。 

一 些 已 部 署 TLS (与 SSL) 的 服务 器 会 在 出 现 未 知 扩展 时 终止 连接 。 为 了 在 部 署 (相对 
新 的 ) renegotiation_info 扩展 时 能 够 处 理 这 一 问题 ， 需 要 提供 另 一 种 可 用 选择 。 在 连接 建 
立 过 程 中 ，TLS 密码 套件 TLS_ EMPTY RENEGOTIATION INFO_SCSV 可 用 于 指出 一 个 
空 renegotiation_info 扩展 的 等 价 情况 。 它 使 用 一 个 信号 密码 套件 值 (Signaling Cipher Suite 
Value, SCSV) 来 指出 一 组 特定 的 功能 ， 而 不 是 去 编码 真正 的 密码 套件 (类似 的 方法 还 用 在 
DNSSEC 中 用 于 NSEC3 记录 ， 参 见 18.10.1.3 节 )。 


18.9.1.5 示例 

在 图 18-31 的 例子 中 ， 我 们 能 够 看 到 在 连接 建立 过 程 中 使 用 TLS 1.2 时 交换 的 消息 ， 该 
过 程 会 在 本 地 环 回 接口 上 使 用 TCP/P。 客 户 端 与 服务 器 都 有 RSA 证书， 并 将 它们 提供 给 通 
信 对 方 。 初 始 的 TCP 握手 与 窗口 更 新 以 及 127.0.0.1 的 源 与 目的 IPv4 地 址 都 没有 显示 出 来 。 
为 了 更 清楚 地 表达 ， 跟 踪 过 程 已 用 左右 箭头 进行 注释 。 指 向 右边 的 箭头 表明 TCP 报 文 段 至 
少 包 含 一 个 TLS 消息 ， 该 消息 由 客户 端 发 往 服务 器 。 指 向 左边 的 箭头 表示 消息 是 从 服务 器 发 
往 客 户 端 。 为 了 显示 这 些 输 出 结果 ， 我 们 首先 通过 在 Analyze | Decode As … 菜单 下 选择 SSL 
来 要 求 Wireshark 软件 解码 跟踪 记录 。 

如 图 18-31 所 示 ， 在 初始 的 TCP 层 握手 之 后 ，TLS 交换 开始 于 一 个 客户 端 Hello 消息 。 
纯 的 TCP ACK 穿插 于 TLS 消息 中 。 在 修改 密码 协议 消息 被 处 理 之 后 ， 后 续 信 息 开 始 被 加 
密 。 为 了 更 详细 地 查看 发 生 的 细节 ,我 们 将 展开 前 面 若干 个 TLS 消息 。 图 18-32 展示 客户 端 
Hello 消息 的 细节 内 容 。 
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图 18-31 利用 Wireshark 软件 显示 了 一 个 正常 的 TLS 1.2 连接 建立 过 程 。 服 务 器 运行 在 5556 端口 。 发 
送 给 服务 器 的 客户 端 消 息 由 指向 右边 的 箭头 标记 。 发 送 给 客户 端的 服务 器 消息 由 指向 左边 的 
箭头 标记 。TCP 的 ACK 穿插 于 TLS 消息 中 。 在 修改 密码 协议 消息 ( 报 文 段 21 ) 之 后 ， 其 他 
的 消息 被 加 密 与 认证 。 报 文 段 13 还 包含 ServerHelloDone 消息 


图 18-32 详 述 的 客户 端 Hello 消息 是 一 条 承载 ClientHello 握手 消息 的 记录 协议 消息 。 它 
包含 一 个 32 位 的 UNIX 时 间 戳 ， 以 秒 为 单位 ， 从 1970 年 1 月 1 日 的 午夜 12 点 开始 计时 。 
此 外 ， 客 户 端 Hello 消息 还 包含 一 个 随机 的 28 字 节 数值 (ClientHello.random) 用 于 形成 密 
钥 。 由 于 这 是 一 个 全 新 的 连接 ， 它 的 会 话 ID 为 0。6 个 字 节 专门 用 于 承载 客户 端 支持 的 3 个 
密码 套件 ， 并 按照 推荐 程度 排序 〈 最 优 推荐 排 在 最 前 面 )。 每 一 套件 都 使 用 一 个 16 位 的 数 
值 进行 编码 ， 该 数值 由 [TLSPARAMS] 中 的 TLS 密码 套件 注册 表 指 定 。 图 中 消息 只 支持 一 
种 压缩 方法 一 一 NULL 方法 。 该 方法 不 会 产生 任何 压缩 结果 ， 并 已 成 为 一 种 典型 情况 。 此 
外 ， 消 息 还 包含 50 个 字 节 用 于 扩展 。cert_type 扩展 指出 使 用 的 是 X.509 证 书 还 是 OpenPGP 
证 书 。server_name 扩展 包含 服务 器 提供 给 客户 端 应 用 程序 的 名 称 127.0.0.1。 由 于 是 第 一 次 
握手 ，renegotiation info 扩展 为 空 。SessionTicket TLS 扩展 也 属于 相同 的 情况 。signature_ 
algorithms 扩展 指出 客户 端 能 够 处 理 的 算法 集合 : shal-rsa、shal-dsa、sha256-rsa、sha384- 
rsa 以 及 sha512-rsa。 


在 这 个 简单 的 交换 中 ,服务器 被 配置 为 只 有 一 个 密码 套件 : TLS_DHE_RSA_WITH_ 


AES 256 _ CBC SHA256 (0x006b)。 如 图 18-33 所 示 ， 当 通过 一 个 服务 器 Hello 消息 来 响应 客 
户 端 Hello 消息 时 ， 服 务 器 会 指明 这 一 事实 。 

在 图 18-33 中 ， 服 务 器 用 一 条 服务 器 Hello 消息 来 响应 客户 端 Hello 消息 。 服 务 器 会 提 
供 它 的 当前 时 间 副 本 以 及 一 个 28 字 节 的 随机 值 。 它 还 包括 一 个 随机 的 32 字 节 的 会 话 ID。 
服务 器 只 支持 一 个 密码 套件 (使 用 RSA 证 书 的 DH 密 钥 协商 ，CBC 模式 的 AES-256 算法 用 
于 加 密 ，SHA-256 算法 用 于 完整 性 保护 )。 与 客户 端 类 似 ， 服 务 器 不 支持 任何 压缩 算法 。 服 
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务 器 还 包含 一 个 空 的 renegotiation info 与 一 个 空 的 SessionTicket TLS 扩展 。 在 第 一 条 消息 之 
后 ， 服 务 器 会 继续 发 送 一 条 证 书 消息 ， 如 图 18-34 所 示 。 


tls-local.td 


Source port: 49710 (49710) 
Destination port: 5556 (5556) 
[stream index: 0] 
Sequence number: 1 (relative sequence number) 
[Next sequence number: 107 (relative sequence number )] 
Acknowledgement number: 1 relative ack number) 
Header length: 32 bytes 
@ Flags: 0x18 (PSH, ACK) 
Window size value: 65535 
[calculated window size: 524280] 
(window size scaling factor: 8] 
@ Checksum: 0x3784 [correct] 
m Options: (12 bytes) 
而 [SEQ/ACK analysis] 
w [Timestamps] 


@ TLSv1.2 Record Layer: Handshake Protocol: Client Hella 
content Type: Handshake (22) 
Version: TLS 1.2 (0x0303) 
Length: 101 
‘Handshake Protocol: Client Hello o 
Handshake Type: Client Hello (1) 
Length: 97 
version: TLS 1.2 (€0x0303) 
5 Random 
gmt_unix_time: Dec 9, 2010 11:16:34.000000000 Pacific Standard Time 
random_bytes: 6ad3cae7a0994efes3aas83fo2alcfcac82e2ed1 91bd4c20d... 
Session ID Length: 0 
Cipher suites Length: 6 
@ Cipher suites (3 suites) 
Cipher suite: TLS_ODHE_RSA_WITH_AES_256_CBC_SHA256 (Ox006b) 
Cipher suite: TLS_DHE_DSS_wITH_AES_256_CBC_SHA256 (0x006a) 
Cipher suite: TLS_RSA_WITH_AES_256_CBC_SHA256 (Ox003d) 
Compression Methods Length: 1 
Compression Methods (1 method) 
Compression Method: null (0) 
Extensions Length: 50 
& Extension: cert_type 
Type: cert_type (0x0009) 
Length: 3 
Data (3 bytes) 
B Extension: server_name 
Type: server_name (0x0000) 
Length: 14 
Data (14 bytes) 
& Extension: renegotiation_info 
Type: renegotiation_info Coxffo1) 
Length: 1 
Data (1 byte) 
5 Extension: sessionticket TLS 
Type: SessionTicket TLS (0x0023) 
Length: 0 
Data (0 bytes) 
Extension: signature_algorithms 
Type: signature_algorithms (0x000d) 
Length: 12 
Data (12 bytes) 





= 


图 18-32 TLS 1.2 中 一 个 客户 端 Hello 消息 包括 版 本 信息 、 所 支持 的 密码 套件 与 压缩 算法 、 随 机 数据 
以 及 一 些 扩展 。 此 处 客户 端 支持 Diffie-Hellman 密 钥 协 议 以 及 使 用 RSA 的 密 钥 交换 。 它 使 
用 CBC 模式 的 AES-256 算法 用 于 加 密 ，SHA-256 算法 用 于 完整 性 保护 


图 18-34 中 的 消息 将 服务 器 的 841 字 节 的 X.509v3 证 书 传输 至 客户 端 。 它 是 由 一 个 称 
为 测试 CA 的 样本 证 书 颁 发 机 构 签 署 的 。 测 试 CA 位 于 发 布 者 (Issuer) 字段 。 该 字段 被 称 为 
SubjectPublickeyInfo， 包 含 了 服务 器 的 270 字 节 的 RSA 公 钥 。 客 户 端 会 使 用 它 来 完成 对 服 
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务 器 的 身份 认证 。 证 书 中 有 6 个 扩展 : basicConstraints (关键 的 )、subjectAltName (包含 使 
用 证 书 的 服务 器 的 DNS 名 称 )、extKeyUsage (扩展 的 密 钥 用 途 ， 指 出 密 钥 的 用 途 在 于 认证 
服务 器 的 身份 )、keyUsage (关键 的 ， 指 出 可 能 用 于 密 钥 加 密 或 生成 数字 签名 的 已 关闭 密 钥 )、 
subjectKeyIdentifier (一 个 20 字 节 的 数字 ， 用 于 识别 已 签名 的 公 钥 ) 以 及 authorityKeyIdentifier 
(一 个 20 字 节 的 数字 ， 用 于 识别 证 书 颁 发 机 构 用 来 生成 当前 证 书 的 密 钥 )。 
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ontrolt proroco 
5556 (5556) 
Destination port: 49710 (49710) 
[Stream index: 0] 
Sequence number: 1 Crelative sequence number) 
[Next sequence number: 91 (relative sequence number )] 
Acknowledgement number: 107 relative ack number) 
Header length: 32 bytes 
Flags: 0x18 (PSH, ACK) 
Window size value: 65535 
[calculated window size: 524280] 
(Window size scaling factor: 8] 
国 Checksum: Oxel9b [correct] 
Options: C12 bytes) 
fm [SEQ/ACK analysis] 
ia [Timestamps] 
Secure Sockets Layer 
Tia TLSV1.2 Record Layér: Handshake Protocol! Server Hello 
Content Type: Handshake (22) 
version: TLS 1.2 (0x0303) 
Length: 85 
@ Handshake Protocol: Server Hello 
Handshake Type: Server Hello (2) 
Length: 81 
version: TLS 1.2 (0x0303) 
@ Random 
gmt_unix_time: Dec 9, 2010 11:16:34. 000000000 Pacific Standard Time 
random_bytes: 5269c5f99ba898138ee784 e093d717 a4 72b3e912F943afd0... 
Session ID Length: 32 
Session ID: 8f3ea072cf9a5a061e65fd36Fdbc3c7chaceBa8cfe738eb3... 
Cipher suite: TLS_DHE_RSA_WITH_AES_256_CBC_SHA256 (Ox006b) 
Compression Method: null (0) 
Extensions Length: 9 
® Extension: renegotiation_info 
Extension: sessionticket TLS 





图 18-33 TLS 1.2 中 一 个 ServerHello 消息 包含 版 本 信息 、 所 支持 的 密码 套件 与 压缩 算法 以 及 一 些 扩 
展 。 此 处 ， 客 户 端 支 持 Diffie-Hellman 密 钥 协商 。 它 使 用 AES-256 算法 用 于 加 密 ，SHA-256 
算法 用 于 完整 性 保护 

由 于 ClientKeyExchange 消息 大 多 包含 用 于 形成 DH 交换 的 二 进 制 信息 ， 所 以 不 再 对 

其 进行 详细 描述 。 下 一 条 有 趣 的 消息 是 报 文 段 13， 它 是 一 个 包含 CertificateRequest 消息 与 

ServerHelloDone 消息 的 TCP 报 文 段 。 图 18-35 显示 了 它 的 内 容 。 

图 18-35 展示 了 一 个 包含 CertificateRequest 消息 与 ServerHelloDone 消息 的 TCP 报 文 

段 。CertificateRequest 用 于 要 求 客户 端 提 供 证 书 ， 并 使 用 后 续 的 CertificateVerify 消息 认证 它 

的 身份 。 应 该 使 用 RSA 算法 或 来 自 测 试 CA 证 书 颁发 机 构 的 DSS 算法 对 要 求 的 证 书 类 型 进 

行 签名 。 列 出 的 签名 算法 包括 shal-rsa、shal-dsa、sha256-rsa、sha384-rsa 以 及 sha512-rsa。 

数据 包 15 (未 显示 细节 ) 所 包含 的 证 书 消息 拥有 针对 客户 端 与 其 公 钥 的 证 书 链 。 在 这 种 

情况 下 ， 主 题字 段 包括 “测试 客户 端 ” 以 及 作为 发 布 者 的 测试 CA。 因 此 客户 端 与 服务 器 的 

证 书 是 被 同一 个 CA 签署 的 ， 而 所 谓 的 证 书 链 只 包含 一 个 证 书 。 对 于 客户 端 而 言 ， 如 果 要 证 
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明 自 己 拥 有 对 应 的 私 钥 ， 它 会 生成 一 条 CertificateVerify 消息 (数据 包 19). CertificateVerify 
消息 包含 一 个 签名 ， 它 是 通过 客户 端的 私 钥 对 迄今 为 止 所 有 发 送 与 接收 的 会 话 握手 消息 的 散 
列 值 进行 签名 。 这 样 不 仅 能 够 证 明 客户 端 是 真实 的 ， 还 表示 到 目前 为 止 客户 端 已 经 正确 地 参 
与 到 TLS 交换 中 ， 并 没有 丢失 或 重新 排序 任何 消息 。 在 CertificateVerify 之 后 ， 更 改 密码 消 
息 出 现在 随后 的 通信 (已 加 密 ) 中 。 


= Transmission contro} Proroci 
Source port; 5556 (5556) 
Destination port: 49710 (49710) 
{stream index: 0] 
Sequence number: 91 (relative sequence number) 
[Next sequence number: 947 Crelative sequence number )] 
Acknowledgement number: 107 relative ack number) 
Header length: 32 bytes 
w Flags: 0x18 (PSH, ACK) 
window size value: 65535 
[Calculated window size: 524280] 
[window size scaling factor: 8] 
à Checksum: Oxd6fa [correct] 
$ options: (12 bytes) 
@ [SEQ/ACK analysis] 
ia [Timestamps] 
= Secure sockets tayer € =o) A 
BTLSv1.2 Record Layer: Handshake Protocol: Certificate 
Coment Type: Handshake (22) 
version: TLS 1.2 (0x0303) 
Length: 851 
© Handshake Protocol: Certificate 
Handshake Type: certificate (11) 
Length: 847 
cerpificates Length: 844 
@ Certificates (844 bytes) 
Certificate Length: 641 
‘certificate (id-at-commonname=localhost, id-at-organizationNamestest org) 
& signedcertificate 
version: v3 (2) 
serialnumber: 1291919218 
& signature (shawithrsaencrypt ion) 
Algorithm td: ł.2.840.113549.1.1.5 (shawithrsaencrypt ion) 
S issuer: rdnsequence (0) 
i rdosequence: 1 item (id-at-commonName=-Test CA) 
局 RONSequence item: 1 item (id-at-commonname=Test CA) 
& RelativeDistinguishedName item (id-at-commonNamexTest CA} 
Td: 2.5.4.3 Cid-at-commonname) 
ig Directorystring: printablestring (1) 
printablestring: Test CA 
a validity 
& notBefore: utcTime (0) 
utcTime: 10-12-09 18:26:58 (utc) 
@ motafter: utctime (0) 
utetime: 11-12-09 18:26:59 (UTC) 
wW subject: rdnsequence (0) 
i rdnsequence; 2 items C1d-at-commonname=localhost, id-at-organ\zattonname=test org) 
W RDNSequence item: 1 item (id-at-organizationname=test org) 
® RONSequence item: 1 item Cid-at-commonName localhost) 
a subjectPublickeytnfo 
@ algorithm (rsatncryption) 
Algorithm Id: 1,2.840.123549.1.1.1 (rsaencryption) 
Padding: 0 
subjectrublickey: 3082010a0282010100def6ef0a37a7742e66286cb58C4317... 
3 extensions: 6 items 
a Extension (id~ce-basicconstraints) 
Extension Id: 2.5.29,19 (id-ce-basicconstraints) 
critical: True 
Basicconstraintssyntax 
@ Extension (1d-ce-subjectaltname) 
Extension Id: 2,5.29,17 (id-ce-subjectAltname) 
ii GeneratNames: 1 item 
i Generalname; dNsName (2) 
dNSName: localhost 
S Extension Cid-ce-extkeyusage) 
Extension Id; 2,5,29,37 Cid-ce-extkeyusage) 
@ KeyPurposeros: 1 item 
KeyPurposerd: 1,3.6.1.5.5,7.3.1 Cid-kp-serverauth) 
@ Extension (id-ce-keyusage) 
Extension Id: 2.5.29.15 Cid-ce-keyUsage) 
critical: True 
Padding: 7 
š Keyusage: a000 (digitalsignature, keyencipherment) 
S Extension Cid-ce-subjectkeyIdentifier) 
Extension id: 2.5.29.14 (id-ce-subjectreyidentifter) 
Subjectkeyidentifler: a5e38f91634bfbbe3095908faetl1d59ff3583419 
B Extension (id-ce-authoritykeyldentifier) 
Extension td: 2.5.29.35 Cid-ce-authorityKkeyidenti fier) 
@ Author itykeytdent ifier 
keyIdentifier: 420796cd2ebb0eSesGaaaThobl 7do46aad197146 
@ algorithmidentifier Cshawithrsagncrypt ton) 
Algorithm Id: 1.2.840.113549,1.1.5 (shawithrsarncryprion) 
Padding: 0 
encrypted: 138012e5d75d666f00d85583251c71fF70C53c5653200b84- . . 





图 18-34 在 ServerHello 消息 之 后 ， 服 务 器 产生 一 个 证 书 消息 来 承载 自己 的 证 书 。 客 户 端 能 够 通过 该 
证 书 认证 服务 器 的 身份 。 当 服务 器 认证 客户 端的 身份 时 也 会 采用 相同 的 消息 格式 
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Internet. pr version 4, sret 127.0.0.2 0.0.4), Ost: 0.4 G27.0.0.23 
& Transmission Control Protocol, sre Port: 5556 (5556), Dst Port: 49710 (49710), Seq: 
Source port: 5556 (5556) 
Destination port: 49710 (49710) 
y" (Stream index: 0] 
Sequence number: 1479 (relative sequence number) 
(Next sequence number: 1536 (relative sequence number)] 
Acknowledgement number: 107 (relative ack number) 
Header length: 32 bytes 
@ Flags: 0x18 (PSH, ACK) 
window size value: 65535 
(Calculated window size: 524280] 
[window size scaling factor: 8] 
& Checksum: Ox8d99 [correct] 
f Options: (12 bytes) 
® [SEQ/ACK analysis] 
f& [Timestamps] 
Secure Sockets Layer ' ` a a ga i bt a 
Gh TLSVL.2, Record Layers i : Protocol; Certificate Request — 
content Type: Hani e (22) 
version: TLS 1.2 (0x0303) 
Length: 43 
f@ Handshake Protocol: Certificate Request 
Handshake Type: Certificate Request (13) 
Length: 39 
certificate types count: 2 
ig Certificate types (2 types) 
Certificate type: RSA Sign (1) 
Certificate type: DSS Sign (2) 


ron 


Signature Hash Algorithms Length: 10 
f@ Signature Hash Algorithms (5 algorithms) 
5 Signature Hash Algorithm: 0x0201 
Signature Hash Algorithm Hash: SHAL (2) 
Signature Hash Algorithm Signature: RSA (1) 
Signature Hash Algorithm: 0x0202 
Signature Hash Algorithm Hash: SHAL (2) 
Signature Hash Algorithm signature: DSA (2) 
@ Signature Hash Algorithm: Ox0401 
Signature Hash Algorithm Hash: SHA256 (4) 
Signature Hash Algorithm Signature: RSA (1) 
Ə Signature Hash Algorithm: 0x0501 
Signature Hash Algorithm Hash; SHA384 (5) 
Signature Hash Algorithm Signature: RSA (1) 
@ signature Hash Algorithm: Ox0601 
Signature Hash Algorithm Hash: SHA512 (6) 
Signature Hash Algorithm Signature: RSA (1) 
Distinguished Names Length: 22 
局 Distinguished Names (22 bytes) 
Distinguished Name Length: 20 
@ Distinguished name: Cid-at-commonname=Test CA) 
GB RONSequence item: 1 item Cid-at-commonName=Test CA) 
B RelativeDistinguishedName item (id-at-commonName=Test CA) 
Id: 2.5.4.3 Cid-at-commonName) 
S Directorystring: printablestring (1) 
printablestring: Test CA 
& TLSv1.2 Record Layer: Handshake Protocol: Server Hello Done 
content Type: Handshake (22) 
version: TLS 1.2 (0x0303) 
Length: 4 
fg Handshake Protocol: Server Hello Done 
Handshake Type: Server Hello Done (14) 
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图 18-35 服务 器 的 CertificateRequest 与 ServerHelloDone 消息 都 包含 在 相同 的 TCP 报 文 段 中 。 客 户 端 
能 够 使 用 证 书 来 认证 服务 器 的 身份 。 当 服务 器 认证 客户 端的 身份 时 也 会 使 用 相同 的 消息 格式 


18.9.2 DTLS 


TLS 协议 假设 了 一 个 基于 流 的 底层 传输 协议 来 传输 它 的 消息 。 数 据 报 TLS (DTLS) 版 
本 放宽 了 这 一 假设 ， 旨 在 使 用 与 TLS 基本 相同 的 消息 格式 但 以 其 他 方式 达到 相同 的 安全 
目标 。 最 初 它 是 由 那些 诸如 运行 在 UDP 协议 上 的 SIP 协议 引发 的 ， 但 它 不 使 用 IPsec 协议 
[RFC5406]。DTLS 还 可 经 过 修改 用 于 DCCP [RFC5238] 与 SCTP [RFC6083]。 当 前 正在 编写 
的 版 本 为 DTLS1.0 [RFC4347]， 基 于 TLS 1.1。 一 个 更 新 的 基于 TLS 1.2 的 版 本 正在 制定 中 
[IDDTLS]。 新 版 本 还 会 使 用 图 18-28 所 示 的 相同 的 协议 分 层 ， 并 采用 绝 大 多 数 相同 的 消息 交 
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换 方式 。 

在 缺乏 可 靠 传输 层 的 情况 下 提供 类 似 TLS 服务 的 主要 挑战 在 于 数据 报 可 能 会 丢失 、 重 
新 排序 或 重复 。 这 些 问题 会 影响 到 加 密 与 握手 协议 ， 这 两 者 都 依赖 于 TLS 协议 。 为 了 处 理 这 
些 问 题 ，DTLS 为 记录 层 承 载 的 每 一 条 记录 添加 了 一 个 明确 的 序列 号 (它们 在 普通 TLS 中 是 
隐 式 的 )， 并 且 借助 (不 同 于 ) 握手 协议 所 使 用 的 序列 号 制定 出 一 个 基于 超时 的 重 传 方案 。 


18.9.2.1 DTLS 记录 层 

在 TLS 中 ， 由 于 计算 一 条 记录 的 MAC 依赖 于 前 一 条 记录 ， 因 此 记录 的 顺序 是 非常 重要 
的 。 更 特别 的 是 ，MAC 的 计算 依赖 于 每 一 条 记录 的 隐 式 64 位 序列 号 。 如 果 数 据 报 乱 序 或 丢 
失 ， 那 么 该 序列 号 将 会 报错 。 为 了 补救 这 一 问题 ，DTLS 在 记录 层 使 用 明确 的 序列 号 。 在 每 
一 条 ChangeCipherSpec 消息 发 送 之 后 ， 这 些 序列 号 被 重 置 为 数值 0。 它 们 也 可 以 与 一 个 附加 
的 16 位 历 元 数 (epoch number) 结合 使 用 。 历 元 数 包 含 在 每 一 条 记录 的 头 部 。 密 码 状态 的 每 
一 次 变化 都 会 使 历 元 数 加 1。 这 样 就 解决 了 由 于 多 个 接近 的 握手 产生 多 条 包含 相同 序列 号 的 
消息 并 出 现 传输 冲突 的 问题 。 

DTLS 中 的 MAC 计算 修改 了 对 应 的 TLS 版 本 ,包含 了 一 个 由 两 个 新 字段 ( 历 元 数 在 先 ， 
后 面 是 序列 号 ) 组 成 的 64 位 块 。 这 样 就 允许 单独 处 理 每 一 条 记录 。 需 要 注意 的 是 : 在 TLS 
中 一 个 错误 的 MAC 会 导致 连接 终止 ; 而 在 DTLS 中 ,终止 一 个 完整 的 连接 是 没有 必要 的 ， 
接收 者 会 选择 简单 地 丢弃 包含 错误 MAC 的 记录 ,或 是 发 送 一 条 警告 消息 (如 果 产 生 ， 必 须 
是 终端 )。 

重复 的 消息 会 被 简单 地 丢弃 ， 或 者 被 视 为 一 个 潜在 的 重 放 攻击 。 如 果 支 持 重 放 检 测 ， 那 
么 将 会 在 接收 端 设 置 一 个 当前 序列 号 窗口 。 要 求 该 窗口 至 少 容纳 32 条 消息 ,但 建议 至 少 为 
64 条 。 这 一 方案 与 IPsec 中 针对 AH 与 ESP 的 方案 非常 相似 。 如 果 到 达 记 录 的 序列 号 小 于 窗 
口 左边 沿 对 应 的 数值 ， 那 么 会 将 它 视 为 旧 的 或 重复 的 记录 而 默默 地 丢弃 。 那 些 在 窗口 之 内 的 
记录 也 会 被 检查 ， 看 是 否 出 现 重复 。 如 果 一 条 消息 在 窗口 之 内 并 且 拥 有 正确 的 序列 号 ， 即 便 
出 现 顺序 错乱 的 情况 ， 也 会 将 其 保留 下 来 。 而 那些 拥有 错误 MAC 的 消息 会 被 丢弃 。 那 些 拥 
有 正确 MAC 却 超出 窗口 右边 沿 的 消息 会 使 得 右边 沿 增加 。 因 此 ， 右 边沿 代表 已 验证 消息 的 
最 高 序列 号 。 

一 个 数据 报 可 能 会 包含 多 个 DTLS 记录 ,但 是 一 条 记录 不 可 能 跨越 多 个 数据 报 。 记 录 层 
允许 应 用 程序 实现 一 个 类 似 TCP 的 (参见 第 15 Æ) PMTUD 过 程 ， 并 且 在 认为 可 能 被 分 片 
时 避免 发 送 数据 报 。 事 实 上， 如 果 应 用 程序 尝试 发 送 的 消息 超过 了 PMTU 或 最 大 应 用 数据 
报 大 小 (PMTU 减 去 DTLS 的 负载 )， 那 么 它 应 该 收 到 一 条 错误 提示 。 这 条 规则 的 一 个 例外 是 
DTLS 在 处 理 握手 协议 时 ， 此 时 会 包含 比较 大 的 消息 。 


18.9.2.2 DTLS 握手 协议 

握手 协议 的 消息 最 大 为 2%* - 1 字 节 ,但 实际 上 大 约 为 几 千 字 节 。 这 样 就 会 超过 典型 的 最 
大 UDP 数据 报 大 小 的 1.5KB。 为 了 处 理 这 一 问题 ， 握 手 协议 的 消息 可 能 会 通过 分 片 过 程 跨 
越 多 个 DTLS 记录 。 每 一 个 分 片 都 包含 在 一 条 记录 中 ， 这 些 记 录 会 包含 在 底层 的 数据 报 中 。 
为 了 实现 分 片 ， 每 一 个 握手 消息 都 包含 一 个 16 位 的 序列 号 字段 、 一 个 24 位 的 分 片 偏 移 字 段 
以 及 一 个 24 位 的 分 片 长 度 字段 。 

为 了 实现 分 片 ， 原 始 消息 的 内 容 被 分 为 多 个 连续 的 数据 范围 。 每 一 个 范围 都 要 小 于 最 大 





分 片 大 小 ， 而且 都 包含 在 一 个 消息 分 片 中 。 每 一 个 分 片 都 包含 了 与 原始 消息 相同 的 序列 号 。 
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分 片 偏 移 与 分 片 长 度 字 段 都 以 字 节 表 示 。 发 送 者 会 避免 重要 数据 范围 ， 但 接收 者 应 具备 处 理 
这 一 潜在 问题 的 能 力 。 因 为 发 送 者 可 能 需要 随时 间 推 移 而 不 断 调整 自己 的 记录 大 小 ， 并 且 在 
必要 的 时 候 进行 重 传 。 

为 了 处 理 消息 丢失 的 问题 ， DTLS 具有 简单 的 超时 与 重 传 功 能 。 重 传 功能 是 以 消息 组 的 
形式 运行 的 ， 也 被 称 为 “班次 ”。 图 18-36 显示 了 完整 的 (E) 与 简化 的 ( 右 ) 交换 建立 过 程 ， 
以 及 DTLS 握手 协议 的 状态 机 。 


简化 交换 
完整 交换 ( 重新 连接 ) 


客户 端 
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图 18-36 在 DTLS 中 ， 必 须 处 理 丢失 数据 报 的 问题 。 初 始 的 完整 交换 ( 左 ) 包括 6 个 班次 的 信息 。 每 
个 班次 都 能 够 重新 传输 。DTLS 简化 交换 (右上 ) 只 使 用 3 个 班次 ， 并 且 与 TLS 略 不 相同 。 
DTLS 在 处 理 协议 时 保持 一 个 3 状态 的 有 限 状 态 机 ( 右 下 ) 
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在 图 18-36 中 ， 班 次 号 显示 在 完整 交换 与 简化 交换 的 中 间 区 域 。 除 了 附加 的 HelloVerify 
Request 与 第 2 个 ClientHello 消息 之 外 (现在 包含 cookie)， 完 整 交 换 与 图 18-30 中 完整 的 
TLS 交换 非常 类 似 。 然 而 ， 简 化 的 交换 则 不 相同 。 在 DTLS 中 由 服务 器 发 送 第 一 条 Finished 
消息 ， 而 在 TLS 中 则 是 由 客户 端 发 送 第 一 条 Finished 消息 。 

图 18-36 的 右 下 部 分 描绘 了 在 执行 握手 协议 时 DTLS 实现 所 使 用 的 状态 机 。 它 包含 3 个 
主要 的 状态 : 准备 、 发 送 与 等 待 。 客 户 端 通过 创建 自己 的 ClientHello 消息 从 准备 状态 启动 。 
服务 器 从 等 待 状态 启动 ， 并 且 未 缓存 任何 消息 或 启动 重 传 计时 器 。 在 发 送 时 ， 重 传 计时 器 会 
被 设置 。 在 传输 完成 之 后 ， 协 议会 再 次 进入 等 待 状态 。 如 果 重 传 (RTX) 计时 器 超时 ， 会 使 
协议 重新 回 到 发 送 状态 来 执行 一 次 重 传 操作 。 当 接收 到 来 自 对 方 的 重 传 班次 时 也 会 出 现 同样 
的 状况 。 在 后 一 种 情况 中 ， 本 地 系统 会 以 之 前 的 传输 部 分 丢失 或 完全 丢失 为 理由 而 重 传 自己 
的 班次 。 这 与 端点 重 传 所 介绍 的 类 似 。 如 果 一 切 顺利 ， 一 个 班次 在 被 接收 后 ， 本 地 系统 结束 
或 返回 到 准备 状态 去 形成 下 一 个 传输 的 班次 。 

状态 机 是 由 一 个 重 传 计时 器 驱动 的 ， 它 的 默认 建议 值 为 1 秒 。 如 果 在 超时 期 限 内 接收 
不 到 某 一 班次 的 响应 ， 就 会 使 用 相同 的 握手 协议 序列 号 重新 传输 这 一 班次 。 然 而 需要 注意 的 
是 ， 记 录 层 序列 号 仍然 会 向 前 增加 。 后 续 重 传 如 果 没 有 获得 响应 将 会 使 RTX 的 超时 值 加 倍 ， 
至 少 高 达 60s。 在 一 次 成 功 传输 或 一 个 长 的 空闲 期 之 后 ， 会 重新 设置 该 数值 ( 10 倍 于 当前 计 
时 器 的 数值 或 更 多 )。 
18.9.2.3 DTLS DoS 保护 

当 数 据 报 用 于 蔡 代 可 靠 的 字 节 流 协议 时 ， 一些 额 外 的 安全 考虑 需要 关注 。 特 别 值得 关注 
的 是 两 个 潜在 的 DoS 攻击 。 攻 击 者 在 发 送 一 个 ClientHello 消息 时 伪造 源 IP 地 址 是 很 简单 的 
事情 。 许 多 这 样 的 消息 就 会 造成 对 DTLS 服务 器 的 DoS 攻击 ， 耗 尽 用 于 形成 响应 处 理 的 资 
源 。 该 攻击 的 一 个 变种 会 包括 多 个 拥有 相同 伪造 IP 源 地 址 的 攻击 主机 。 响 应 服务 器 会 向 这 
些 受害 者 的 IP 地 址 发 送 响 应 ， 这 样 这 些 受害 主机 就 完成 了 对 服务 器 的 DoS 攻击 。 

包含 于 Hello 交换 中 的 一 个 无 状态 的 cookie 验证 过 程 能 够 帮助 抵御 DoS 攻击 。 当 一 台 
服务 器 接收 到 一 条 ClientHello 消息 ， 它 会 生成 一 条 新 的 包含 32 位 cookie ( 它 可 能 是 一 个 秘 
密 的 函数 、 客 户 端 的 IP 地 址 以 及 连接 参数 ) 的 HelloVerifyRequest 消息 。 后 续 的 ClientHello 
消息 必须 包含 正确 的 cookie， 否 则 服务 器 会 拒绝 交换 。 这 样 服务 器 就 能 迅速 握 弃 那些 未 提供 
正确 cookie 的 请 求 。 这 种 方法 并 不 能 抵御 来 自 多 个 合法 IP 地 址 的 协同 攻击 ， 因 为 这 些 IP 地 
址 的 主机 都 能 够 成 功 地 完成 cookie 交换 。 


18.10 DNS 安全 (DNSSEC ) 

我 们 已 经 讨论 了 链 路 层 、 网 络 层 与 传输 层 流行 的 安全 协议 ， 本 节 我 们 开始 讨论 应 用 层 。 
虽然 在 作者 撰写 本 书 的 时 候 还 未 广泛 部 署 ， 但 我 们 应 该 关注 如 何 为 域名 系统 (DNS) 提供 
增强 的 安全 。DNS 安全 不 仅 指 DNS 中 的 数据 (资源 记录 ，RR) 安全 ， 还 包含 在 同步 或 更 
新 DNS 服务 器 内 容 时 的 传输 安全 。 鉴 于 DNS 在 Internet 运行 中 的 重要 作用 ， 针 对 其 部 署 安 
全 机 制 会 有 深远 的 影响 。 这 些 机 制 称 为 域名 系统 安全 扩展 (Domain Name System Security 
Extensions, DNSSEC), 一 系列 RFC 文档 [RFC4033] [RFC4034] [RFC4035] 对 这 些 机 制 进行 
了 深入 讨论 。 这 些 REC 文档 有 时 被 称 为 DNSSECbis， 这 是 因为 它们 取代 了 DNSSEC 早期 的 
规范 文档 。 在 我 们 进一步 讨论 DNSSEC 之 前 ， 先 回顾 一 下 DNS 的 基本 描述 (参见 第 11 章 ) 
是 十 分 必要 的 。 
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这 些 扩 展 提 供 了 DNS 数据 的 源 认 证 与 完整 性 保护 ， 以 及 (有 限 的 ) 密 钥 分 发 设施 。 也 
就 是 说 ， 扩 展 提 供 了 一 种 加 密 的 安全 方式 来 确定 实体 是 否 已 对 一 块 DNS 信息 授权 ， 以 及 接 
收 到 的 信息 是 否 被 算 改 。DNSSEC 还 能 够 进行 不 存在 性 验证 。DNS 响应 能 够 指出 某 一 受 保 
护 的 特定 域名 是 不 存在 的 并 对 此 提供 保护 ， 就 像 保护 那些 指出 某 一 个 域名 存在 的 响应 一 样 。 
DNSSEC 不 能 为 DNS 信息 提供 保密 性 、DoS 攻击 保护 以 及 访问 控制 。DNSSEC 的 传输 安全 性 
是 被 单独 定义 的 ， 我们 将 在 讨论 完 DNSSEC 的 核心 数据 安全 功能 之 后 对 其 进行 简短 的 介绍 。 

上 DNSSEC 是 通过 对 “已 知 的 ”安全 进行 分 层 来 调整 解析 器 的 。 一 个 验证 已 知 安全 的 解析 
器 (也 称 为 验证 解析 器 ) 会 检查 加 密 的 签名 ， 从 而 保证 其 处 理 的 DNS 数据 是 安全 的 。 其 他 的 
解析 器 ， 包 括 主机 上 的 存根 解析 器 以 及 递归 域名 服务 器 的 “解析 方 ”， 可 能 已 知 安全 但 无 法 
进行 密码 验证 。 相 反 ， 这 种 解析 器 应 当 建立 与 验证 解析 器 的 安全 关联 。 我 们 将 关注 验证 解析 
器 ， 因 为 它们 是 最 复杂 、 有 趣 的。 在 运行 时 ， 它 们 能 够 确定 DNS 信息 是 否 安全 (MANE 
名 都 经 检查 有 效 )、 不 安全 (签名 有 效 地 指出 有 些 数据 不 应 该 存在 ， 但 却 已 经 出 现 )、 虚 假 ( 数 
据 出 现在 合理 的 位 置 ， 但 是 由 于 某 些 原因 不 能 被 验证 ) 以 及 不 确定 (真实 性 无 法 得 到 验证 ， 
通常 是 因为 无 法 得 到 签名 )。 当 没有 其 他 可 用 信息 时 ， 不 确定 的 情况 是 默认 情况 。 

只 有 在 域 管理 员 签署 了 一 个 区 域 后 DNSSEC 才 会 安全 地 工作 ， 它 涉及 一 些 信任 基础 ， 
服务 器 与 解析 器 软件 都 参与 其 中 。 验 证 解析 器 会 检查 签名 以 保证 DNS 信息 是 安全 的 ， 而 且 
它们 必须 配置 一 些 初始 信任 锚 点 ， 这 些 锚 点 类 似 于 PKI 中 的 根 证 书 。 然 而 值得 注意 的 是 ， 
DNSSEC 不 是 一 个 PKI， 它 只 会 提供 有 限 的 签名 与 密 钥 撤 销 功能 。 它 不 能 够 模拟 证 书 撤销 列 
表 [RFC5011]。 

当 执 行 一 个 带 有 DNSSEC 的 DNS 查询 时 ， 一 个 已 知 安全 的 解析 器 就 会 使 用 DNS 扩展 
机 制 (EDNS0 )， 并 且 将 请 求 中 一 个 OPT 元 资源 记录 的 DO 位 置 位 (表示 DNSSEC OK). K 
位 指出 客户 端 不 仅 有 兴趣 而 且 有 能 力 来 处 理 与 DNSSEC 相关 的 信息 ， 并 支持 EDNS0。DO 
位 在 EDNS0 元 资源 记录 (参见 [RFC3225] 的 第 3 节 与 [RFC2671] 的 第 4 节 ) 的 “扩展 的 
RCODE 与 标志 ”部 分 ， 是 其 中 第 2 个 16 位 字段 的 第 1 位 。 接 收 到 那些 DO 位 未 置 位 (或 不 
存在 ) 请 求 时 ， 会 禁止 服务 器 返回 18.10.1 节 讨 论 的 大 多 数 资源 记录 ， 除 非 这 些 记录 是 在 请 
求 中 明确 要 求 的 。 由 于 避免 了 承载 那些 与 安全 相关 却 又 不 被 未 知 安全 的 解析 器 处 理 的 资源 记 
录 ， 所 以 这 样 做 有 助 于 提高 DNS 的 性 能 。 由 于 DNS 通常 会 使 用 相对 小 的 UDP 数据 包 并 且 
常 退 回 用 TCP 协议 , 而 TCP 的 3 次 握手 就 会 增加 对 大 响应 的 延迟 ， 因 此 上 述 方法 是 十 分 有 
益 的 。 

当 服 务 器 处 理 来 自 一 个 DNSSEC 可 用 解析 器 的 请 求 时 ， 它 会 检查 DNS 请 求 的 CD 
( Checking Disabled) 位 (参见 第 11 章 )。 如 果 该 位 置 位 ， 那 么 表明 客户 端 愿意 接收 包含 未 验 
证 数据 的 响应 。 在 准备 一 个 响应 时 ， 服 务 器 通常 会 利用 密码 方法 验证 要 返回 的 数据 。 成 功 的 
验证 结果 会 使 得 响应 中 的 AD ( Authentic Data， 真 实数 据 ) 位 置 位 [RFC4035]。 如 果 拥 有 一 
条 到 达 服务 器 的 安全 路 径 ， 那 么 一 个 安全 已 知 但 未 验证 的 解析 器 在 原则 上 是 能 够 信任 这 条 
信息 的 。 然 而 ， 最 好 的 情况 是 使 用 验证 存根 解析 器 一 一 它 能 够 进行 加 密 验 证 ， 从 而 将 查询 的 
CD 位 置 位 。 这 样 不 仅 提供 了 端 到 端的 DNS 安全 ( 即 中 间 解 析 器 不 需要 是 可 信 的 )， 还 减少 
了 中 间 服 务 器 的 计算 负担 ; 否则 ， 这 些 中 间 服 务 器 不 得 不 进行 密码 验证 。 


18.10.1 DNSSEC 资源 记录 
如 [RFC4034] 所 指定 的 ，DNSSEC 使 用 4 个 资源 记录 与 两 个 消息 头 位 (CD 与 AD)。 它 
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还 需要 支持 EDNS0 并 且 使 用 我 们 之 前 提 到 的 DO 位 。 在 4 个 资源 记录 中 ，2 个 用 于 包含 对 
DNS 域名 空间 的 签名 ， 另 外 2 个 用 于 帮助 分 发 与 验证 密 钥 。[RFC5155] 中 有 一 处 修改 ， 新 增 
了 2 个 资源 记录 ， 意 在 代替 原始 4 个 资源 记录 中 的 一 个 。 


18.10.1.1 DNS 安全 (DNSKEY) 资源 记录 

首先 ， 我 们 将 查看 DNSSEC 是 如 何 存储 和 分 发 密 钥 的 。DNSSEC 使 用 DNSKEY 资源 记 
录 来 维护 公 钥 。 这 些 密 钥 只 能 与 DNSSEC 一 起 使 用 ; 其 他 的 资源 记录 (例如 ，[RFC4398] 中 
的 证 书 资源 记录 CERT RR) 可 能 用 于 维护 针对 其 他 用 途 的 密 钥 或 证 书 。 图 18-37 展示 了 一 条 
DNSKEY 资源 记录 中 RDATA 部 分 的 格式 。 


0 15 16 31 
(16 位 ) (8 位 ) (8 位 ) 
公 钥 
Fo caa a NERE) a n o al 
图 18-37 DNSKEY 资源 记录 的 RDATA 部 分 包含 一 个 只 用 于 DNSSEC 的 公 钥 。 标 志 字 段 包 含 了 一 
个 区 域 密 钥 指示 符 (第 7 位 )、 一 个 安全 入 口 点 指示 符 (第 15 位 )、 一 个 撤销 指示 符 (第 8 
位 )。 一 般 来 说 ， 区 域 密 钥 位 是 为 所 有 的 DNSSEC 密 钥 设 置 的 。 如 果 公 开 的 SEP 位 也 被 置 
位 ， 那 么 该 密 钥 通常 被 称 为 密 钥 签名 密 钥 ， 并 用 于 验证 对 子 区 域 的 授权 。 如 果 没 有 置 位 ， 该 
密 钥 通常 是 一 个 区 域 签 名 密 钥 ， 拥 有 更 短 的 验证 周期 ， 通 常用 于 签名 区 域 的 内 容 但 不 授权 。 
DNSKEY 资源 记录 所 包含 的 密 钥 会 与 其 算法 字段 指定 的 算法 一 同 使 用 


图 18-37 中 的 标志 字段 目前 定义 了 3 位 。 第 7 位 是 区 域 密 钥 位 字段 。 如 果 置 位 ， 那 么 
DNSKEY 资源 记录 拥有 者 的 名 称 必 须 为 区 域 的 名 称 ， 并 且 所 包含 的 密 钥 也 被 称 为 区 域 签名 
密 钥 (Zone Signing Key, ZSK) RAAZ BA (Key Signing Key，KSK)。 如 果 没 有 置 位 ， 
那么 记录 将 会 维护 另 一 种 不 能 用 于 验证 区 域 签名 的 DNS 密 钥 。 第 15 位 称 为 安全 入 口 点 
(SEP) 位 。 它 作为 调试 或 签名 软件 时 的 一 条 提示 ， 能 够 根据 密 钥 的 用 途 做 出 明智 的 猜测 。 签 
名 验证 不 会 解释 SEP 位 ， 但 该 位 置 位 的 密 钥 通常 为 KSK， 并 通过 验证 子 区 域 的 密 钥 来 确保 
DNS 层次 结构 的 安全 (借助 DS 记录 ， 参 见 18.10.1.2 节 )。 第 8 位 是 撤销 位 [RFC5011]。 如 
果 该 位 置 位 ， 则 表示 密 钥 不 能 用 于 验证 。 协 议 字 有 段 维护 的 数值 3 用 于 这 一 版 本 的 DNSSEC。 
算法 字段 指出 了 签名 算法 [DNSSECALG]。 根 据 [RFC4034]， 只 有 DSA 与 具有 SHA-1 的 RSA 
(数值 分 别 为 3 和 5 ) 才 被 定义 用 于 DNSKEY 资源 记录 ， 但 是 其 他 的 规范 能 够 支持 其 他 算法 
(例如 ， 针 对 ECC-GOST 的 [RFC5933] (数值 为 12 )， 针 对 SHA-256 的 [RFC5702] (数值 为 8 ) )。 
这 些 数 值 还 可 以 与 其 他 若干 DNSSEC 资源 i 
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摘要 
18.10.1.2 ”授权 签名 者 资源 记录 A (长 度 可 变 ) 4 
授权 签名 者 (DS) 资源 记录 用 于 指定 图 18-38 DS 资源 记录 的 RDATA 部 分 在 密 钥 标签 
一 条 DNSKEY 资源 记录 ， 通 常 从 一 个 父 区 字段 包含 了 对 一 条 DNSKEY 资源 记录 的 
域 到 一 个 子 区 域 。 这 些 记录 在 授权 过 程 中 非 唯一 参考 ， 还 包含 了 对 DNSKEY 资源 
用 来 验证 公 钥 (参见 18.10.2 节 )。DS 资源 记录 及 其 所 有 者 的 消息 摘要 。 此 外 ， 还 有 


记录 的 格式 如 图 18-38 所 示 。 对 摘要 类 型 与 算法 的 说 明 
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图 18-38 中 的 密 负 标签 字段 是 一 条 DNSKEY 资源 记录 的 参考 ,但 它 不 是 唯一 的 。 多 条 
DNSKEY 资源 记录 可 能 会 拥有 相同 的 标签 值 ， 因 此 该 字段 只 能 作为 查找 的 提示 《确认 验证 仍 
然 是 必要 的 )。 该 字段 的 数值 是 作为 16 位 的 未 签名 数据 之 和 来 计算 的 ， 其 中 包含 了 图 18-37 
中 所 示 的 DNSKEY 资源 记录 的 RDATA 部 分 (负载 被 忽略 )。 算 法 字段 使 用 了 与 DNSKEY 
资源 记录 的 算法 字段 相同 的 数值 。 摘 要 类 型 字段 指出 了 所 用 的 签名 类 型 。[RFC4034] 中 只 定 
义 了 数值 1 (SHA-1 )， 而 SHA-256 (数值 2 ) 是 通过 [RFC4509] 指定 的 。 当 前 的 列表 包含 在 
DS 资源 记录 类 型 摘要 算法 注册 表 中 [DSRRTYPES]。 摘 要 字段 包含 了 将 要 引用 的 DNSKEY 
资源 记录 的 摘要 。 具 体 地 说 ， 该 摘要 的 计算 方法 如 下 : 

摘要 = 摘要 算法 (DNSKEY 所 有 者 名 | DNSKEY RDATA) 
此 处 | 是 连接 运算 符 ， 而 DNSKEY RDATA 的 数值 是 根据 引用 的 DNSKEY 资源 记录 来 计算 
的 。 它 的 计算 方法 如 下 : 
DNSKEY RDATA = 标志 | 协议 | 算法 | AA 

在 SHA-1 的 情况 下 ， 摘 要 的 长 度 为 20 字 节 ， 而 在 SHA-256 的 情况 下 ， 长度 为 32 字 
i. DS 资源 记录 用 于 在 跨越 区 域 边界 的 认证 链 中 提供 一 个 下 行 链 路 ， 所 以 引用 的 DNSKEY 
资源 记录 必须 是 一 个 区 域 密 钥 ( 即 ， 在 DNSKEY 资源 记录 中 标识 符 字段 的 第 7 位 必须 置 位 )。 


注意 在 作者 撰写 本 书 时 ， 一 个 称 为 DS2 的 DS 资源 记录 的 变种 正在 商定 中 
[IDDS2]。 它 在 DS 资源 记录 中 引入 了 一 个 典型 签名 者 名 称 ， 这 样 拥有 相同 内 容 的 
多 个 区 域 可 以 被 命名 为 不 同 的 名 称 ， 并 被 多 个 签名 者 签署 。 此 外 ， 还 有 一 个 DLV 
资源 记录 [RFC4431] 用 于 提供 授权 ， 以 免 一 个 父 区 域 未 被 签名 或 未 被 DS 资源 记录 
RA, DLV 资源 记录 的 格式 与 DS 资源 记录 相同 ， 只 是 解释 不 同 。 


18.10.1.3 ”下 一 步 安全 (NSEC 和 NSEC3 ) 资源 记录 

我 们 已 经 看 到 ， 除 了 维护 资源 记录 之 外 还 要 保障 相关 密 钥 的 安全 ， 本 节 我 们 将 继续 讨论 
验证 区 域 结构 的 记录 与 其 所 包含 的 资源 记录 。 下 一 步 安 全 (NextSECure) 资源 记录 ( NSEC) 
用 于 在 规范 有 序 的 名 称 (参见 18.10.2.1 节 ) 或 一 个 NS 类 型 的 RRset (资源 记录 和 集 ) 授权 点 中 
维护 “下 一 个 ”RRset 所 有 者 的 域名 (回忆 一 下 ,一 个 RRset 是 一 组 具有 相同 所 有 者 、 类 、 
TTL 或 类 型 但 拥有 不 同 数据 的 资源 记录 )。 
它 还 维护 位 于 NSEC 资源 记录 的 所 有 者 名 © =n = 


称 中 的 RR 类 型 列表 。 这 样 能 够 为 区 域 结 | | 
构 提 供认 证 与 完整 性 验证 。NSEC 资源 记 | 


录 的 格式 如 图 18-39 所 示 。 1 (长 度 可 变 ) 1 


NSEC 资源 记录 用 于 在 一 个 区 域 中 形 


图 18-39 NSEC 资源 记录 的 RDATA 部 分 包含 了 下 
成 一 条 与 资源 记录 集 ( RRset ) 相关 的 链 。 ed tenets 
人 名 称 。 它 也 指出 了 哪 一 种 RR 类 型 出 现在 
不 存在 。 这 种 方法 提供 了 前 文 提 到 的 可 认 NSEC 资源 记录 所 有 者 的 域名 中 


证 的 拒绝 存在 特性 。 下 一 个 域名 字段 维护 
一 个 区 域 的 规范 有 序 的 域名 链 中 的 下 一 个 条 目 ， 并 且 没 有 使 用 第 11 章 介 绍 的 域名 压缩 技术 。 
链 中 最 后 一 条 NSEC 记录 在 这 一 字段 的 数值 为 区 域 顶 点 (区域 的 SOA 资源 记录 的 所 有 者 
名 称 )。 

NSEC 资源 记录 的 类 型 位 图 字段 维护 了 一 张 关 于 RR 类 型 的 位 图 。 这 些 RR 类 型 记录 在 


Eee 


NSEC 资源 记录 所 有 者 的 域名 中 。 最 多 有 64K 个 可 能 的 类 型 ， 其 中 大 约 有 100 种 限定 了 日 期 
[DNSPARAMS]。 只 有 一 小 部 分 被 广泛 使 用 。 例 如 ，Internet 的 根 区 域 (域名 为 “.”)， 它 与 
DNSSEC 一 起 从 2010 年 7 月 15 日 开始 工作 ,包含 了 ac (一 个 国家 及 地 区 代码 顶级 域名 ) 的 
下 一 个 域名 字段 与 一 张 指 出 当前 记录 类 型 (包括 NS、SOA、RRSIG、NSEC 以 及 DNSKEY ) 
的 位 图 。 

为 了 对 存在 的 类 型 进行 编码 ， 整 个 资源 记录 类 型 的 空间 被 划分 为 256 个 “窗口 块 "， 编 
号 从 0 到 255。 对 于 每 一 块 的 序号 而 言 ， 用 1 位 掩 码 最 多 能 够 对 256 个 资源 记录 类 型 进行 编 
码 。 假 设 一 个 块 的 编号 为 YX 并 且 位 位 置 为 已， 那么 相关 的 资源 记录 类 型 编号 为 (N*256 + P)。 
例如 ， 在 块 1 中 ， 与 资源 记录 类 型 258 (目前 尚未 定义 的 一 种 类 型 ) 相关 的 位 位 置 是 2。 编码 
的 字段 如 下 : 

类 型 位 图 =( 窗口 块 号 | 位 图 长 度 | 位 图 ) 
其 中 ，| 为 连接 运算 符 ， 而 * 代表 克 林 (Kleene) HE ( 即 ，0 个 或 多 个 )。 窗 口 块 号 的 每 一 个 
实例 都 包含 了 一 个 0 ~ 255 的 数值 ， 位 图 长 度 包 含 了 对 应 位 图 的 字 节 长 度 (最 大 值 为 32 )。 
窗口 块 号 与 位 图 长 度 均 为 一 个 字 节 ， 而 位 图 可 以 到 32 字 节 ( 256 位， 每 一 位 对 应 窗口 中 可 能 
的 资源 记录 类 型 )。 不 存在 资源 记录 类 型 的 块 是 不 包含 在 内 的 。 针 对 那些 跨越 多 个 块 并 且 稀 
玻 出 现 的 类 型 ， 已 对 编码 进行 了 优化 。 例 如 ， 如 果 只 有 资源 记录 类 型 1(A) 与 15(MX) HH, 
该 字段 的 编码 如 下 : 
0x00024001 = (0x00 | 0x02 | 0x4001) 

定义 在 [RFC4034] 中 的 NSEC 记录 的 原始 结构 造成 了 这 样 一 种 情况 : 任何 人 都 能 通过 
遍历 NSEC 链 而 列举 出 一 个 区 域 中 的 权威 记录 。 这 种 情况 称 为 区 域 列 举 。 这 在 许多 部 署 中 
是 一 种 不 希望 有 的 信息 “泄露 ”机 会 。 因 此 
[RFC5155] 定义 了 一 对 资源 记录 ， 意 在 取代 
NSEC。 第 一 条 记录 称 为 NSEC3， 它 使 用 资 
源 记 录 所 有 者 域名 的 加 密 散 列 值 来 取代 未 编 
码 的 域名 。 图 18-40 显示 了 它 的 格式 。 

在 NSEC3 记录 中 ， 散 列 算法 字段 标识 
了 应 用 于 下 一 个 所 有 者 名 称 的 散 列 函数 ， 以 
产生 下 一 个 散 列 的 所 有 者 字段 。 只 有 SHA-1 
(数值 为 1) 限定 了 日 期 [NSEC3PARAMS]。 
标志 字段 的 低 比特 位 包含 了 一 个 opt-out 标 4 er f 
To MRE, EHH NSEC3 记录 可 能 图 18-40 NSEC3 资源 记录 的 RDATA 部 分 包含 了 
包含 未 签名 的 授权 。 它 用 于 对 一 个 没有 被 要 下 一 个 RRset 所 有 者 在 规范 有 序 区 域 中 
求 或 不 希望 被 签名 的 子 区 域 授权 (NS RRset) 的 名 称 的 散 列 什 。 先 代 次 数字 段 指出 了 
ba ARRAT BORAR AIRT 获 列 函数 使 用 的 次 数 。 在 使 用 散 列 函数 
多 少 次 。 较 大 的 迭代 次 数 有 助 于 防止 找到 与 之 前 ， 长 度 可 恋 的 混淆 值 (Salt，“ 盐 ”) 
称 FAKT) BAER RT ELT 型 位 图 字段 使 用 与 NSEC RR 相同 的 结 
清 值 字段 的 字 节 长 度 。 混 清 值 字段 包含 了 一 构 。NSEC3PARAM 记录 非常 相似 ， 但 
个 在 计算 散 列 函数 之 前 附加 于 原 所 有 者 名 称 只 包含 散 列 参 数 (不 是 下 一 个 散 列 所 有 
的 数值 。 它 的 目的 在 于 帮助 抵御 字典 攻击 。 者 或 类 型 位 图 字段 ) 


0 15 16 31 
散 列 算法 标志 迭代 次 数 
(8 位 ) (8 位 ) (16 位 ) 


混淆 值 f 
(长 度 可 变 ) 






下 一 个 散 列 所 有 者 
(长 度 可 变 ) 


EB: THRI DUE, IP KAW. BREZA DSA, ERARA PH 641 


[RFC5155] 指出 的 第 2 条 资源 记录 被 称 为 NSEC3PARAM 资源 记录 (未 单独 显示 )。 除 
了 不 包含 散 列 长 度 、 下 一 个 散 列 的 所 有 者 以 及 类 型 位 图 字段 外 ， 它 使 用 与 NSEC3 资源 记录 
相同 的 格式 。 权 威 的 名 称 服 务 器 在 为 否定 的 响应 选择 NSEC3 记录 时 使 用 NSEC3PARAM 资 
源 记 录 。NSEC3PARAM 资源 记录 为 计算 一 个 散 列 所 有 者 名 称 提 供 了 所 需 的 参数 。 

为 了 获得 下 一 个 散 列 所 有 者 字段 的 散 列 值 ， 需 要 进行 以 下 计算 : 

IH(0) = H( 所 有 者 名 称 | 混淆 值 ) 
IH(k) = H(IH(k - 1) | 混淆 值 ), #k>0 
下 一 个 散 列 所 有 者 = HUH( 和 迭代 次 数 ) | 混淆 值 ) 

其 中 互 是 散 列 算法 字段 指定 的 散 列 函数 ， 所 有 者 名 称 必须 按照 标准 的 格式 。 和 迭代 次 数 与 混淆 
值 取 自 NSEC3 资源 记录 的 相关 字段 。 

为 了 避免 混淆 NSEC 与 NSEC3 资源 记录 类 型 [RFC5155] 在 NSEC3 资源 记录 的 区 域 中 
分 配 并 要 求 使 用 特殊 的 安全 算法 编号 6 和 7， 作 为 标识 符 3 (DSA) 和 5 (SHA-1 ) 的 别名 。 
不 知道 NSEC3 记录 类 型 的 解析 器 在 接收 到 这 些 数值 后 会 将 它们 作为 不 安全 的 记录 处 理 。 这 
样 就 提供 了 一 种 有 限 的 向 后 兼容 能 力 ( 即 失败 ， 但 这 样 做 并 没有 错误 地 解释 资源 记录 数据 )。 


18.10.1.4 ”资源 记录 签名 资源 记录 

M DNS 的 结构 到 它 的 内 容 ， 我 们 需要 一 种 方法 为 资源 记录 提供 源 认 证 与 完整 性 保护 。 
DNSSEC 使 用 名 为 资源 记录 签名 (Resource o 
Record Signature, RRSIG) 的 资源 记录 来 
签署 并 验证 RRset 中 的 签名 。 区 域 中 每 一 
条 授权 的 资源 记录 都 必须 签名 ( 父 区 域 中 出 


15 16 31 
覆盖 类 型 


算法 标签 
(16 位 ) (8 位 ) (8 位 ) 








现 的 粘贴 记录 与 授权 NS 记录 不 需要 签名 ) 。 
一 条 RRSIG 资源 记录 包含 了 某 一 特定 
RRset 的 数字 签名 ， 以 及 使 用 哪 一 个 公 旬 来 
验证 签名 的 信息 ， 如 图 18-41 所 示 。 

覆盖 类 型 字段 指出 了 签名 适用 的 RRset 
类 型 。 它 的 数值 来 自 标准 的 RR 类 型 集合 
[DNSPARAMS]。 算 法 字段 指出 了 签名 算 
法 。 根 据 [RFC4034]， 只 有 DSA 与 带 有 
SHA-1 的 RSA (数值 分 别 为 3 与 5) 才能 
用 于 RRSIG 资源 记录 ,但 是 [RFC5702] 涵 
ia JS SHA-2% 3%, mi [RFC5933] 4 mm T 
GOST 算法 (来自 于 俄罗斯 )。 标 签字 段 给 
出 了 在 RRSIG 资源 记录 的 原 所 有 者 名 称 中 
的 标签 数目 。 原 TTL 字段 维护 了 一 份 TTL 
副本 ， 这 份 副本 是 当 RRset 出 现 于 授权 区 







(32 位 ) 
签名 到 期 
签名 成 立 
(32 位 ) 


密 钥 标签 
(16 位 ) 









签名 者 名 称 
(长 度 可 变 ) 





签名 


(长 度 可 变 ) i 


图 18-41 RRSIG 资源 记录 的 RDATA 部 分 包含 了 一 
个 RRset 的 签名 。RRset 出 现在 授权 域 中 
的 TTL 也 包含 在 内 。 此 外 ， 还 指出 了 算 
法 与 签名 的 有 效 期 。 密 钥 标 签字 段 指出 那 
些 包 含 公 钥 的 DNSKEY 资源 记录 (该 公 
钥 用 于 验证 签名 )。 标 签字 段 指 出 有 多 少 
标签 构成 了 资源 记录 的 原 所 有 者 名 称 


域 时 保留 下 来 的 (缓存 名 称 服务 器 能 够 减少 TTL)。 签 名 到 期 与 签名 成 立 字 段 指 出 了 一 个 签 
名 有 效 期 的 开始 与 结束 时 间 ， 从 世界 协调 时 间 (UTC) 的 1970 年 1 月 1 日 0 点 0 分 0 秒 开始 
以 秒 为 单位 显示 。 密 钥 标 签字 段 标识 那些 用 于 获得 某 种 特殊 公 钥 的 DNSKEY 资源 记录 。 这 
种 公 钥 对 于 验证 签名 字段 所 包含 的 签名 而 言 是 必需 的 。 密 钥 标 签字 段 将 使 用 之 前 DS 资源 记 
录 所 使 用 的 格式 。 
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18.10.2 DNSSEC 运行 


现在 我 们 已 经 讨论 了 DNSSEC 需要 的 所 有 资源 记录 ， 知 道 如 何 使 用 面向 安全 区 域 的 
DNSSEC。 如 前 文 所 述 ， 在 定义 NSEC 与 NSEC3 的 记录 类 型 时 ， 首 先 需要 一 个 规范 有 序 的 
定义 。 针 对 某 一 区 域 定义 规范 顺序 的 目的 是 为 了 以 一 种 能 够 被 签名 的 可 重 现 方式 来 列举 区 域 
的 内 容 〈 好 的 散 列 函数 会 根据 同一 内 容 的 不 同 顺序 产生 出 不 同 的 数值 )。 


18.10.2.1 规范 顺序 与 形式 

有 3 种 规范 顺序 引起 我 们 重视 : 一 个 区 域 中 规范 的 名 称 顺 序 ， 一 条 资源 记录 中 规范 的 形 
式 ， 以 及 一 个 RRset 中 的 规范 顺序 [RFC4034]。 在 第 11 章 已 经 介绍 过 ， 每 一 条 资源 记录 都 
有 一 个 包含 多 个 标签 的 所 有 者 名 称 (所 有 者 域名 )。 通 过 将 名 称 中 的 每 一 个 标签 作为 左 对 齐 
的 字符 串 ， 同 时 将 大 写 的 US-ASCII 字母 作为 小 写字 母 ， 我 们 能 够 形成 一 个 名 称 列表 。 首 先 
通过 它们 最 重要 (最 右边 ) 的 标签 进行 排序 ， 然 后 根据 次 重要 的 标签 排序 ， 依 次 类 推 。 在 一 
个 0 值 字 节 之 前 将 缺 省 一 个 字 节 。 一 个 正确 的 规范 顺序 将 会 使 用 com， 例 如 company.com, 
* company.com, UK.company.COM, usa.company.com 等 。 此 外 ， 还 可 以 使 用 通配符 。 

对 于 一 个 特殊 的 资源 记录 而 言 ， 需 要 有 一 个 定义 良好 的 规范 形式 。 这 一 形式 要 求 资 源 记 
录 遵 循 以 下 规则 : 

1. 每 一 个 域名 都 是 一 个 完全 限定 域名 并 被 完全 展开 (无 压缩 标签 )。 

2. 在 所 有 者 名 称 中 的 所 有 大 写 的 US-ASCII 码 字 符 都 需要 被 它们 的 小 写 版 本 代替 。 

3. 对 于 任何 类 型 号 为 2 = 9, 12, 14, 15, 17, 18, 21, 24, 26, 334.35, 36, 39W 
及 38 的 记录 ， 在 它们 的 RDATA 部 分 出 现 的 域名 中 ， 所 有 大 写 的 US-ASCI 码 字符 都 需要 被 
它们 的 小 写 版 本 代替 。 

4. 任何 通配符 都 不 会 被 取代 。 

5. 当 出 现在 原 权 威 区 域 或 覆盖 RRSIG 资源 记录 的 原 TTL 字段 ，TTL 将 会 设置 为 原始 
数值 。 


注意 ”一些 说 明 与 重要 修改 目前 正 应 用 于 DNSSECbis 族 的 基本 文件 中 。 读 者 可 以 
查阅 最 新 版 本 的 [IDDCIN] 来 获得 具体 的 细节 。 


一 个 RRset 中 的 资源 记录 的 规范 顺序 遵循 与 所 有 者 名 称 相同 的 规则 ， 只 不 过 所 有 者 名 称 
以 规范 形式 应 用 于 资源 记录 的 RDATA 内 容 ， 就 像 对 待 左 对 齐 的 字 节 串 那 样 。 


18.10.2.2 ”签署 区 域 与 区 域 削减 

DNSSEC 依赖 于 签名 区 域 。 这 样 的 区 域 包括 RRSIG, DNSKEY 以 及 NSEC (或 NSEC3 ) 
资源 记录 ， 而 且 如 果 有 一 个 签名 授权 点 ， 它 可 能 还 会 包含 DS 资源 记录 。 签 名 使 用 公 钥 加 密 ， 
公 钥 的 存储 与 分 发 通过 DNS 来 完成 。 图 18-42 展示 了 位 于 父子 区 域 之 间 的 抽象 授权 点 。 

在 图 18-42 中 ， 父 区 域 包含 了 自己 的 DNSKEY 资源 记录 ， 它 能 够 提供 与 使 用 RRSIG 资 
源 记录 (可 能 出 现 多 个 DNSKEY) 来 签名 一 个 区 域 中 的 所 有 授权 RRset 的 私 钥 相 关 的 公 钥 。 
父 区 域 中 的 一 条 DS 资源 记录 提供 子 顶 点 的 一 条 DNSKEY 资源 记录 的 散 列 值 。 这 样 就 建立 
起 一 条 从 父 区 域 到 子 区 域 的 信任 链 。 一 个 信任 父 区 域 的 DS 资源 记录 的 验证 解析 器 也 能 验证 
子 区 域 的 DNSKEY 资源 记录 ， 以 及 最 终 的 RRSIG 和 子 区 域 中 签名 的 RRset。 这 种 情况 只 会 
在 验证 者 拥有 一 个 与 父 区域 DSNKEY 资源 记录 相连 的 信任 根 节点 时 才 会 发 生 。 


RE: TFAA, PAR, BREZA, DNS ZA, E RARAN 643 


| RRSIG 资 源 记录 
? 
(在 父 区 域 ) 
RRSIG 资 源 记 录 


~ 
(用 于 NSEC RRset ) 签名 
签名 


DS 资 源 记 录 示例 
NSEC 资 源 记 录 ( 子 区 域 的 DNSKEY 父 区 域 
授权 点 (位 于 项 点 的 类 型 ) | 资源 记录 的 散 列 值 ) 
( 父 区 域名 称 ) A] 

(同一 所 有 者 ) a 散 列 区 域 划分 
( 子 区 域名 称 ) p 
- DNSKEY 资 源 记录 | 签名 | RRSIG 资 源 记录 子 示 例 
(位 于 顶点 ) (用 于 DNSKEY ) 子 区 域 


NSEC 资 源 记 录 “| 签名 | RRSIG 资 源 记 录 
(SOA 类 型 位 置 位 ) (用 于 NSEC ) 
NS 资源 记录 = | 签名 
(位 于 顶点 ) 


图 18-42 对 一 个 已 认证 授权 的 区 域 的 区 域 划分 包括 父 区 域 的 一 条 DS 资源 ( 父 区 域 包含 了 子 区 域 
DNSKEY 资源 记录 的 散 列 值 )。 所 有 的 RRset 都 使 用 相关 的 RRSIG 资源 记录 进行 签名 ， 除 


了 父 区 域 的 授权 NS 资源 记录 (与 粘贴 记录 )。NSEC 资源 记录 能 用 于 验证 区 域 中 的 类 型 ， 并 
包含 一 个 SOA 资源 记录 类 型 来 指出 子 区 域 的 顶部 


RRSIG 资 源 记录 
(用 于 NS ) 





18.10.2.3 ”解析 器 操作 示例 i 

给 定 一 条 关于 签名 区 域 的 链 与 一 个 安全 已 知 的 验证 解析 器 ， 我 们 能 看 到 一 个 DNS 响 
应 的 内 容 是 如 何 验证 的 。 在 最 好 的 情况 下 ， 能 够 通过 一 条 信任 链 从 根 区 域 到 达 一 个 区 域 。 
ICANN 通过 根 区 域 中 的 DS 记录 与 已 签名 的 DNSKEY 资源 记录 [TLD-REPORT] 来 维护 一 个 
DNSSEC 已 启用 的 区 域 列 表 。 

假设 我 们 希望 为 域名 www.icann.org 处 理 并 验证 一 个 A 资源 记录 类 型 。 从 根 区 域 出 发 向 
下 ,我 们 首先 需要 根 的 信任 锚 点 (H DNSKEY 资源 记录 )、 包 含 于 根 名 称 服务 器 中 的 org. 的 
DS 记录 ， 还 可 能 需要 RRSIG 与 NSEC (NSEC3 ) 记录 。 然 后 ， 我 们 利用 域名 org. 4 icann. 
org. 以 及 相关 的 DNS 服务 器 重复 这 一 过 程 。 我 们 开始 于 根 区 域 : 


Linux’ dig @a.root-servers.net. . dnskey +noquestion +nocomments \ 
+nostats +multiline 
;; Truncated, retrying in TCP mode. 
; <<>> DiG 9.7.2-P3 <<>> @a.root-servers.net. . dnskey 
+noquestion +nocomments +nostats +multiline 

; (1 server found) 
77 global options: +cmd ; 

86400 IN DNSKEY 257 3 8 ( AwEAAagAIKl ... ) ; key id = 19036 
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86400 IN DNSKEY 256 3 8 ( AwEAAb5gVAz ... ) ; key id 
86400 IN DNSKEY 256 3 8 ( AwEAACAPhPM ... ) ; key id 


21639 
40288 


此 处 我 们 看 到 根 区 域 的 信任 锚 点 ， 它 构成 Internet 中 所 有 DNSSEC 信任 关系 的 根部 。 第 
一 个 密 钥 是 KSK， 由 数值 257 指出 (SEP 位 为 1)， 它 是 用 于 构成 信任 链 的 主要 成 员 之 一 。 
其 他 的 密 钥 被 标记 为 ZSK。 接 下 来 ,我 们 希望 看 到 的 所 有 记录 都 应 该 是 存在 的 并 且 拥 有 合适 
的 签名 。 根 证 书 中 有 趣 的 RRSIG 记录 如 下 所 示 : 


Linux® dig @a.root-servers.net. . rrsig +noquestion +nocomments \ 
+nostats +noauthority +noadditional 
;; Truncated, retrying in TCP mode. 


; <<>> DiG 9.7.2-P3 <<>> @a.root-servers.net. . rrsig +noquestion 
+nocomments +nostats +noauthority +noadditional 
; (1 server found) 
;; global options: +cmd 
- 86400 IN RRSIG NSEC 8 0 86400 20101228000000 20101220230000 
40288 . RyoGBldxxx... 
- 86400 IN RRSIG DNSKEY 8 0 86400 20110105235959 20101221000000 
19036 . £8bzNvPmHR... 


包含 DNSKEY 记录 的 RRSIG 使 用 密 钥 标签 19036， 它 与 根 区 域 的 DNSKEY 资源 记录 
所 包含 的 KSK 相 匹 配 。 根 区 域 包 含 了 其 他 RRSIG 记录 (用 于 它 的 SOA 与 NS 记录 )， 但 我 
们 更 关心 的 是 用 于 DNSKEY 与 NSEC 资源 记录 的 RRSIG。 只 要 额外 地 确保 DNSKEY 资源 
记录 存在 ， 我 们 就 能 够 检查 根 的 NSEC 资源 记录 ， 从 而 验证 它 的 类 型 是 否 存在 。 


Linux’ dig @a.root-servers.net. . nsec +noquestion +nocomments \ 
+#nostats +noauthority +noadditional 
; <<>> DiG 9.7.2-P3 <<>> @a.root-servers.net. . nsec +noquestion 
+nocomments +nostats +noauthority +noadditional 
; (1 server found) 
77 global options: +cmd 
86400 IN NSEC ac. NS SOA RRSIG NSEC DNSKEY 


这 就 确认 了 根 区 域 正式 包括 的 RRset 类 型 包括 : NS, SOA, RRSIG, NSEC 以 及 
DNSKEY， 因 此 我 们 到 目前 为 止 都 处 于 良好 的 状态 (还 要 注意 的 是 ，ac. 是 根 区 域 的 规范 顺序 
中 的 第 一 个 TLD)。 接 下 来 ,我 们 需要 检查 从 根 到 域名 org. 授权 的 签名 。 可 以 按照 下 述 过 程 
操作 : 

Linux% dig @a.root-servers.net. org. rrsig +noquestion +nocomments \ 

+nostats +noadditional +dnssec 

; <<>> DiG 9.7.2-P3 <<>> @a.root-servers.net. org. rrsig +noquestion 

+nocomments +nostats +noadditional +dnssec 


; (1 server found) 
;; global options: +cmd 


org. 172800 IN NS d0.org.afilias-nst.org. 
org. 172800 IN NS b2.org.afilias-nst.org. 
org. 172800 IN NS aQ.org.afilias-nst.info. 
org. 172800 - IN NS b0.org.afilias-nst.org. 
org. 172800 IN NS a2.org.afilias-nst.info. 
org. 172800 IN NS c0.org.afilias-nst.info. 
org. 86400 IN DS 21366 7 2 96EEB2FFD9 . 

org. 86400 IN DS 21366 7 1 E6C1716CFB . 


org. 86400 IN RRSIG DS 8 1 86400 20101228000000 20101220230000 
40288 . jpcJOGclvvlnx9Kvz5 ... 


DS RRset 的 存在 以 及 它 相 关 的 RRSIG 表明 确实 有 一 个 DNSSEC 安全 授权 。RRSIG 资 


KE: TAJON, IP? KAUR, PRAZE, DNS KA. HE EARI YS 645 


源 记 录 包 含 密 钥 标签 40288， 它 指出 了 我 们 之 前 在 根 区 域 (ZSK) 看 到 的 第 三 个 DNSKEY 资 
源 记录 。 在 查询 中 NS 记录 为 我 们 提供 了 下 一 步 需 要 使 用 的 服务 器 名 称 。 通 过 重复 在 根 区 域 
做 出 的 查询 ， 我 们 可 以 继续 下 去 ,但 这 一 次 使 用 org.。 我 们 在 一 台 NS 资源 记录 指出 的 服务 
器 中 为 根 区 域 的 org. 进行 这 些 查询 。 


Linux% dig @d0.org.afilias-nst.org. org. dnskey +dnssec +nostats \ 
+noquestion +multiline 

; <<>> DiG 9.7.2-P3 <<>> @d0.org.afilias-nst.org. org. dnskey +dnssec 
+nostats tnoquestion +multiline 

; (1 server found) 

77 global options: +cmd 

7; Got answer: 

;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 8061 

7; flags: qr aa rd; QUERY: 1, ANSWER: 6, AUTHORITY: 0, ADDITIONAL: 1 
;; WARNING: recursion requested but not available 


37 OPT PSEUDOSECTION: 
; EDNS: version: 0, flags: do; udp: 4096 
7; ANSWER SECTION: 


org. 900 IN DNSKEY 256 3 7 ( AwEAAZTErUF ... ) ; key id = 1743 
org. 900 IN DNSKEY 256 3 7 ( AwEAAazTpnm ... ) ; key id = 43172 
org. 900 IN DNSKEY 257 3 7 ( AwEAAYpYfj3 ... ) ; key id = 21366 
org. 900 IN . DNSKEY 257 3 7 ( AwEAAZTJbIO . ) ; key id = 9795 


org. 900 IN RRSIG DNSKEY 7 1 900 20101231154644 
20101217144644 21366 org. 
aIZgEsoJO+Q8ZXM ... 

org. 900 IN RRSIG DNSKEY 7 1 900 20101231154644 

20101217144644 43172 org. MWWosWBdEmM8CiM . 


此 处 我 们 看 到 有 4 个 DNSKEY 资源 记录 ， 其 中 两 个 为 KSK (数值 为 257 )， 而 另外 两 个 
为 ZSK (数值 为 256 )。 列 出 的 第 三 个 DNSKEY 资源 记录 (21366) 与 我 们 在 根 区 域 中 发 现 
的 DS 资源 记录 相关 。RRSIG 资源 记录 使 用 这 一 密 钥 ， 再 加 上 ID 为 43172 的 ZSK。 为 了 验 
证 它们 存在 的 合法 性 ， 可 以 查看 也 许 org. 中 存在 的 NSEC 或 NSEC3 记录 : 


Linux% dig @d0.org.afilias-nst.org. org. nsec +dnssec +nostats \ 

+noquestion 

; <<>> DiG 9.7.2-P3 <<>> @d0.org.afilias-nst.org. nsec org. +dnssec 
+nostats +noquestion 

; (1 server found) 

37 global options: +cmd 

37 Got answer: 

;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 61632 

; flags: qr aa rd; QUERY: 1, ANSWER: 0, AUTHORITY: 4, ADDITIONAL: 1 

;; WARNING: recursion requested but not available 


į; OPT PSEUDOSECTION: 
; EDNS: version: 0, flags: do; udp: 4096 
7; AUTHORITY SECTION: 
h9p7u7tr2u91ld0v0ljs9ligidnp90u3h.org. 86400 IN NSEC3 11 1 
D399EAAB 
HORSFB7FPF2L8HG35CMPC765TDK23RP6 
NS SOA RRSIG DNSKEY NSEC3PARAM 
h9p7u7tr2u91d0v0ljs9ligidnp90u3h.org. 86400 IN RRSIG NSEC3 7 2 
86400 20110105003654 
20101221233654 
43172 org. eBtna4fok .. 


此 处 ， 可 以 看 到 一 条 带 有 所 有 者 名 称 的 NSEC3 记录 等 同 于 org. 的 散 列 版 本 。 它 指出 存 
在 一 条 DNSKEY 与 一 条 RRSIG 记录 ， 以 及 NS 与 NSEC3PARAM 记录 。 根 据 最 后 一 个 类 
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型 ， 我 们 能 够 判断 NSEC3 的 信息 。 


Linux% ./dig @a0.org.afilias-nst.info. org. nsec3param +dnssec \ 

+nostats +noadditional +noauthority +noquestion 

; <<>> DiG 9.7.2-P3 <<>> @a0.org.afilias-nst.info. org. nsec3param 
+dnssec +nostats +noadditional +noauthority +noquestion 

; (1 server found) 

77 global options: +cmd 

77 Got answer: 

77 ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 38602 

77 flags: qr aa rd; QUERY: 1, ANSWER: 2, AUTHORITY: 7, ADDITIONAL: 13 

7; WARNING: recursion requested but not available 


7; OPT PSEUDOSECTION: 

; EDNS: version: 0, flags: do; udp: 4096 

;; ANSWER SECTION: 

org. 900 IN NSEC3PARAM 1 0 1 D399EAAB 

org. 900 IN RRSIG NSEC3PARAM 7 1 900 20101231154644 
20101217144644 43172 org. £S2kFw53elY ... 


可 以 看 到 (签名 ) 数值 D399EAAB 是 匹配 的 ， 因 此 NSEC3PARAM 的 资源 记录 是 与 
NSEC3 资源 记录 匹配 的 。 我 们 还 发 现 RRSIG 资源 记录 中 的 签名 来 自 与 DNSKEY (ID 为 
43172) 相关 的 私 钥 。 如 果 所 有 的 签名 都 匹配 ， 那 么 至 此 我 们 已 得 到 一 个 正确 的 信任 链 。 为 

了 完成 这 一 条 链 ， 我 们 还 需要 icann.org 的 信息 : 


Linuxs dig @a0.org.afilias-nst.info. icann.org. any +dnssec +nostats \ 

+noadditional 

; <<>> DiG 9.7.2-P3 <<>> @a0.org.afilias-nst.info. icann.org. any 
+dnssec +nostats +noadditional 

; (1 server found) 

77 global options: +cmd 

7; Got answer: 

37 ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 61234 

7; flags: qr rd; QUERY: 1, ANSWER: 0, AUTHORITY: 8, ADDITIONAL: 3 

77 WARNING: recursion requested but not available 


; OPT PSEUDOSECTION: 

EDNS: version: 0, flags:; udp: 4096 
; QUESTION SECTION: 

icann.org. IN ANY 


see ne ~ 


7; AUTHORITY SECTION: 


icann.org. 86400 IN NS a.iana-servers.net. 
icann.org. 86400 IN NS b.iana-servers.org. 
icann.org. 86400 IN NS c.iana-servers.net. 
icann.org. 86400 IN NS d.iana-servers.net. 
icann.org. 86400 IN NS ns.icann.org. 

icann.org. 86400 IN DS 41643 7 1 93358DB ... 
icann.org. 86400 IN DS 41643 7 2 B8AB67D ... 
icann.org. 86400 IN RRSIG DS 7 2 86400 20101231154644 


20101217144644 43172 org. cZ1230w// ... 


可 以 看 到 DS 资源 记录 指出 对 icann.org. 已 签名 的 授权 。 针 对 DS RRset 的 RRSIG 是 在 
ID 为 43172 的 ZSK 的 基础 上 签署 的 。 通 过 NS 记录 中 的 一 台 服 务 器 ， 我 们 能 够 查看 最 终 的 
服务 器 : 


Linuxg dig @a.iana-servers.net. icann.org. dnskey +dnssec +nostats \ 
+noquestion +multiline 


; <<>> DiG 9.7.2-P3 <<>> @a.iana-servers.net. icann.org. dnskey +dnssec 


KE: THR QUEM, IP ZAR. BREZA, DNS EA, REBAR EH 647 


+nostats +noquestion +multiline 
; (1 server found) 
77 global options: +cmd 
77 Got answer: 
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 22065 
77 flags: qr aa rd; QUERY: 1, ANSWER: 5, AUTHORITY: 0, ADDITIONAL: 1 
;; WARNING: recursion requested but not available 


77 OPT PSEUDOSECTION: 
; EDNS: version: 0, flags:; udp: 4096 
3; ANSWER SECTION: 


icann.org. 3600 IN DNSKEY 256 3 7 ( AwEAAbDmrVc ... ) ; key id = 41295 
icann.org. 3600 IN DNSKEY 256 3 7 ( AwEAAbgrYZd ... ) ; key id = 55469 
icann.org. 3600 IN DNSKEY 257 3 7 ( AwEAAZuSdr4 ... ) ; key id = 7455 
icann.org. 3600 IN DNSKEY 257 3 7 ( AwEAAcyguBH ... ) ; key id = 41643 
icann.org. 3600 IN RRSIG DNSKEY 7 2 3600 20101229153632 

20101222042536 41643 icann.org. 


UxR/5vyOIS ... 


此 处 可 以 看 到 存在 4 个 DNSKEY 资源 记录 ， 其 中 两 个 为 KKSK， 而 另外 两 个 为 ZSK。 列 
出 的 第 4 个 DNSKEY 资源 记录 与 org. 区 域 的 DS 资源 记录 相关 。RRSIG 资源 记录 使 用 这 一 
密 钥 。 为 了 找到 最 终 查 询 的 答案 ， 我 们 请 求 了 记录 A: 


Linux% dig @a.iana-servers.net. www.icann.org. a +dnssec +nostats \ 

+noquestion +noauthority +noadditional 

; <<>> DiG 9.7.2-P3 <<>> @a.iana-servers.net. www.icann.org. a +dnssec 
+nostats +tnoquestion +tnoauthority +tnoadditional 

; (1 server found) 

;; global options: +cmd 

7; Got answer: 

;; —->>HEADER<<- opcode: QUERY, status: NOERROR, id: 56258 

37 flags: qr aa rd; QUERY: 1, ANSWER: 2, AUTHORITY: 6, ADDITIONAL: 3 

7; WARNING: recursion requested but not available 


+; OPT PSEUDOSECTION: 
; EDNS: version: 0, flags:; udp: 4096 
77 ANSWER SECTION: 


www.icann.org. 600 IN A 192.0.32.7 

www.icann.org. 600 IN RRSIG A 7 3 600 20101229143630 
20101222042536 55469 icann.org. 
YRh1L/RA ... 


在 不 断 追 逐 www.icann.org. 的 资源 记录 A 后 ， 我 们 最 终 到 达 了 终点 。 它 包含 了 IP 地 址 
192.0.32.7, H RRSIG 资源 记录 使 用 ID 为 55469 的 密 钥 签署 。 该 密 钥 来 自 位 于 icann.org. 区 
域 顶部 的 第 4 条 DNSKEY 资源 记录 。 因 此 ， 在 这 一 点 上 它 会 显示 所 有 的 顺序 。 然 而 ， 我 们 
已 经 证 明 所 有 的 签名 数值 都 是 正确 的 。 为 了 进行 验证 ， 需 要 执行 以 下 代码 : 


Linux% dig @a.root-servers.net. www.icann.org. a +sigchase +topdown \ 
+trusted-key=trusted-keys 


如 果 dig 程序 按照 编译 时 选项 -DDIG SIGCHASE = 1 被 编译 ,并且 信任 密 钥 文 件 包含 
根 的 DNSKEY 资源 记录 集 ， 那 么 上 述 命 令 将 会 执行 。 在 输出 许多 行 之 后 ， 我 们 发 现 它 确实 
能 够 指出 正确 的 签名 。 一 种 更 简单 的 检查 有 效 性 的 方法 是 使 用 DNS/DNSSEC 检查 网 站 ， 比 
如 http://dnsviz.net。 图 18-43 显示 了 一 个 查询 的 输出 结果 。 

此 处 我 们 看 到 针对 域名 www.icann.org. 的 A 与 AAAA 资源 记录 类 型 的 成 功 认 证 。 每 一 
个 矩形 代表 一 个 区 域 ， 包 含 了 它 的 名 称 与 被 分 析 的 时 间 。 每 个 区 域 中 的 椭圆 形 代 表 信 任 链 上 
的 元 素 ， 它 们 或 者 是 DNSKEY 资源 记录 ， 或 者 是 DS 资源 记录 。 虚 线 椭圆 指出 不 用 于 感 兴 
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趣 签名 的 密 钥 。 椭 圆 之 间 的 箭头 指出 RRSIG 或 DS 摘要 。 两 种 类 型 的 算法 被 选 作 代表 。 在 根 
区 域 ,“alg = 8” 指 出 使 用 RSA/SHA-256 签名 [RFC5702]。 在 另 一 些 区 域 ,“ alg = 7” 指 出 
RSA/SHA-1 允许 使 用 NSEC3 记录 [RFC5155]。 对 于 根 区 域 中 的 DS 资源 记录 ,，“ digest algs = 
1, 2” 指 出 SHA-1 算法 [RFC4034] 与 SHA-256 算法 [RFC4509] 是 被 支持 的 。 
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图 18-43 一 条 可 见 的 DNSSEC 信任 链 。 和 矩形 代表 区 域 ， 椭圆 形 代表 链 的 节点 ， 带 阴影 的 椭圆 表示 


SEP 位 置 位 。 箭 头 指出 了 有 效 的 RRSIG 记录 或 DS 摘要 。 双 圈 椭 圆 指 出 了 信任 锚 点 
18.10.3 ”事务 认证 (TSIG, TKEY, SIG(0)) 


DNS 中 的 一 些 事 务 ， 比 如 区 域 传输 与 动态 更 新 ， 如 果 使 用 不 当 ， 可 能 会 危害 DNS 的 结 
构 与 内 容 。 因 此 ， 它 们 要 求 某 种 形式 的 认证 。 如 果 一 个 解析 器 希望 依赖 于 已 验证 的 DNS 解 
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析 ， 但 不 能 实现 所 有 的 DNNSEC 处 理 过 程 ， 那 么 即使 是 传统 的 DNS 解析 可 能 也 需要 认证 。 
借助 交换 认证 ， 某 一 特定 解析 器 与 服务 器 之 间 (或 在 服务 器 之 间 ) 的 交换 是 受 保护 的 。 需 要 
注意 的 是 事务 的 安全 并 不 能 像 DNSSEC 一 样 直接 保护 DNS 的 内 容 。 因 此 ，DNSSEC 与 事务 
认证 是 互补 的 ， 并 且 能 够 被 一 同 部 署 。DNSSEC 提供 了 数据 的 源 认证 与 区 域 数 据 的 完整 性 保 
护 ， 而 事务 认证 为 客户 端 与 服务 器 之 间 不 检查 交换 内 容 正 确 性 的 特殊 事务 提供 了 完整 性 保护 
与 认证 。 

有 两 种 主要 的 方法 来 认证 DNS 的 事务 : TSIG 与 SIG(0)。TSIG 使 用 共享 密 钥 而 SIG(0) 
使 用 公 钥 / 私 钥 对 。 为 了 缓解 部 署 的 负担 ， 可 以 使 用 TKEY 资源 记录 类 型 来 帮助 形成 TSIG 
或 SIG(0) 的 密 钥 (例如 ， 通 过 维护 公共 的 DH 数值 )。 我 们 将 从 TSIG 开始 讨论 ， 然 后 研究 
比较 常见 的 交换 安全 机 制 。 


18.10.3.1 TSIG 

针对 DNS 或 事务 签名 的 密 钥 事务 认证 (TSIG) [RFC2845] 使 用 基于 共享 密 钥 的 签名 为 
DNS 交换 添加 事务 认证 。TSIG 使 用 一 个 按 需 计算 并 且 只 用 于 保障 一 次 事务 的 TSIG 伪 资 源 
记录 。TSIG 伪 资 源 记 录 中 RDATA 部 分 的 格式 如 图 18-44 所 示 。 












15 16 31 
, H a 


0 
算法 名 称 ( 编码 为 域名 ， 长 度 可 变 ) 


签名 时 间 ( 48 位 ) 
更 新 (16 位 ) 


MAC 大 小 ( 16 位 ) 


其 他 长 度 ( 16 位 ) 


图 18-44 TSIG 伪 资 源 记 录 RDATA 部 分 包含 一 个 签名 算法 ID、 签 名 时 间 与 时 间 更 新 参数 ， 以 及 一 个 
消息 认证 码 。 最 初 ， 只 使 用 基于 MDS 的 签名 ,但 现在 基于 SHA-1 与 SHA-2 的 签名 已 经 标 
准 化 。TSIG 端点 必须 在 更 新 字段 给 出 的 秒 数 内 完成 时 间 同 步 。TSIG 资源 记录 是 由 DNS 消 
息 的 附加 数据 部 分 传输 的 


图 18-44 展示 了 TSIG 伪 资 源 记录 的 格式 。 这 些 资源 记录 是 包含 在 DNS 请 求 与 响应 的 附 
加 数据 部 分 发 送 的 。[RFC2845] 指出 的 原 MAC 算法 是 基于 HMAC-MD5 的 ， 但 更 新 的 GS- 
API ( Kerberos) [RFC3645] 与 基于 SHA-1 和 SHA-256 的 算法 已 由 [RFC4635] 指定 ; 当前 
的 列表 可 以 在 [TSIGALG] 中 找到 。 设 想 算法 名 称 被 编码 为 域名 (例如 ，HMAC-MD5.SIG- 
ALG.REG.INT), 但 现在 大 部 分 使 用 描述 字符 串 ( 例 如，hmac-shal，hmac-sha256 )。48 位 的 
签名 时 间 字 段 是 按照 UNIX 系统 的 时 间 格 式 (世界 协调 时 间 ， 从 1970 年 1 月 1 日 开始 ， 以 
秒 计时 ) 组 织 的 ， 并 且 给 出 了 消息 内 容 被 签署 的 时 间 。 此 字段 隐藏 在 数字 签名 中 ， 被 设计 用 
于 检测 并 抵御 重 放 攻 击 。 此 处 使 用 一 个 绝对 时 间 的 结果 是 ， 使 用 TSIG 的 端点 必须 在 更 新 字 
段 指定 的 秒 数 内 对 时 间 达 成 一 致 。MAC 大 小 字段 给 出 了 MAC 字段 中 包含 的 MAC 与 其 依赖 
的 特殊 MAC 算法 所 需要 的 字 节 数 。 其 他 长 度 字 段 给 出 了 其 他 数据 字段 的 字 节 数 。 它 们 一 般 





MAC (长 度 可 变 ) 







错误 (16 位 ) 


其 他 数据 
(长 度 可 变 ， 用 于 错误 ) 
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只 用 来 运送 错误 的 消息 。 
为 了 验证 TSIG 的 有 效 性 ， 我 们 构建 了 一 个 样 例 区 域 ( 称 为 dynzone.)， 然 后 尝试 进行 一 
次 签名 的 动态 更 新 。 我 们 使 用 BINDI 支持 的 nsupdate 程序 来 进行 更 新 : 


Linux% nsupdate 

zone dynzone. 

server 127.0.0.1 

key tsigkey.dynzone. 1234567890abcdef 
update delete two.dynzone. 

send 


这 一 系列 指令 形成 一 个 使 用 TSIG 签名 的 DNS 更 新 消息 ,一 旦 发 送 指令 发 布 ，TSIG 就 
会 被 发 送 至 服务 器 端 。 图 18-45 显示 了 请 求 。 


VY YY YY 


tsiglocal.td 


Domain Name System 
[Response IN: 2 
Transaction ID: 0x3d82 
加 Flags: 0x2800 (Dynamic update) 
0 = Response: Message is a query 
= Opcode: Dynamic update (5) 
. = Truncated: Message is not truncated 
= Recursion desired: Don't do query recursively 
+. = Z: reserved (0) 
.... = Non-authenticated data: Unacceptable 
Zones: 1 
Prerequisites: 0 
Updates: 1 
Additional RRs: 1 
& Zone 
fa dynzone: type SOA, class IN 
Name: dynzone 
Type: SOA (start of zone of authority) 
Class: IN (Ox0001) 
& Updates 
S Bitwo.dynzone: type ANY, Class ANY 
Name: two. dynzone 
Type: ANY (Request for all records) 
Class: ANY COxooff) 
Time to live: 0 seconds 
Data length: 0 
f@ Additional records 
@ tsigkey.dynzone: type TSIG, class ANY 
Name: tsigkey. dynzone 
Type: TSIG (Transaction Signature) 
Class: ANY (0x00ff) 
Time to live: 0 seconds 
Data length: 58 
Algorithm Name: hmac-md5.sig-alg.reg. int 
Time signed: Dec 22, 2010 14:05:58.000000000 Pacific standard Time 
Fudge: 300 
mac Size: 16 
E MAC 
original Id: 15746 
Error: No error (0) 
other Len: 0 





图 18-45 TSIG 签署 的 一 个 DNS 动态 更 新 请 求 。 该 请 求 要 求 删除 two.dynzone. 的 资源 记录 。 请 求 是 由 
名 为 tsigkey.dynzone. 的 密 钥 签 名 的 。 签 名 算法 为 HMAC-MD5， 它 会 产生 一 个 128 位 (16 
字 节 ) 的 签名 


在 图 18-45 中 ， 一 个 动态 的 DNS 更 新 请 求 已 由 HMAC-MD5 算法 签名 。 签 名 密 钥 的 名 
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称 为 tsigkey. dynzone.。 请 求 通过 移 除 two. dynzone. 这 一 行 来 更 新 dynzone. 区 域 。 签 名 算法 
的 名 称 为 HMAC-MD5.SIG-ALG.REG.INT， 是 这 个 软件 包 所 支持 的 唯一 签名 算法 。 需 要 注 
意 的 是 原 ID 字段 (十 进 制 15746 ) 与 交换 ID 字段 ( 0x3d82 ) 的 数值 匹配 。 如 图 18-46 ro, 
响应 确认 更 新 已 经 成 功 。 

图 18-46 展示 了 针对 一 个 使 用 TSIG 签名 的 DNS 动态 更 新 请 求 做 出 的 成 功 响 应 。 标 志 
段 指 出 一 个 动态 更 新 响应 未 包含 错误 。TSIG 伪 资 源 记录 又 一 次 包含 在 附加 信息 区 域 中 。 913 


tsiglocal.td 





Dee € ele 


Request 

[Time: 0. ae seconds] 

Transaction ID: 0x3d82 
f Flags: Oxa880 oh alee update response, No error) 
Response: Message is a response 
opcode: Dynamic update (5) 
Authoritative: Server is not an authority for domain 
Truncated: Message is not truncated 
Recursion desired: Don't do query recursively 
Recursion available: Server can do recursive queries 
2: reserved (0) 
Answer authenticated: answer/authority portion was not auth 
Non-authenticated data: Unacceptable 
Reply code: No error (0) 


i. . 
.010 1. eses asies 


CEVICHE 


zones: 1 

Prerequisites: 

Updates: 1 

Additional RRS: 1 

fl Zone 

@ dynzone: type SOA, class IN 
Name: dynzone 
Type: SOA (Start of zone of authority) 
Class: IN (Ox0001) 


a Updates 
lewa dy RYDE ANY CNAS ANY, 
Name: two. ‘dynzone 
Type: ANY (Request for all records) 
Class: ANY COxOOff) 
Time to live: 0 seconds 
Data length: 0 
Additional records 

@ tsigkey.dynzone: type TSIG, class ANY 
Name: tsigkey. dynzone 
Type: TSIG (Transaction signature) 
Class: ANY 《0xOoff7 
Time to live: 0 seconds 
Data length: 58 
Algorithm Name: hmac-md5.sig-alg.reg. int 
Time signed: Dec 22, 2010 14:05:58.000000000 Pacific Standard Time 
Fudge: 300 
mac Size: 16 
MAC 
original Id: 15746 
Error: No error (0) 
other Len: 0 





图 18-46 TSIG 签署 的 一 个 DNS 动态 更 新 响应 。 资 源 记 录 集 two.dynzone. 已 经 通过 动态 更 新 成 功 地 移 除 


18.10.3.2 SIG(0) 

DNSSEC 的 早期 版 本 包含 了 与 前 文 所 讨论 的 现代 RRSIG 资源 记录 相关 的 签名 (SIG) 资 
源 记录 。 然 而 ,一 种 特殊 的 称 为 SIG(0) 的 SIG 资源 记录 [RFC2931] 没有 和 覆盖 DNS 中 静态 的 
记录 ， 而 是 为 交换 动态 地 生成 SIG(0) 的 0 部 分 指 一 条 被 签署 资源 记录 中 数据 的 长 度 。 因 此 ， [914 
原则 上 SIG(0) 记录 能 够 替代 TSIG 资源 记录 ， 并 达到 相同 的 结果 。 然 而 ， 它 们 是 以 不 同 的 方 
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式 实现 的 。 更 重要 的 是 ，SIG(0) 将 信任 基础 放置 于 公 钥 中 来 代替 共享 密 钥 。TSIG 被 支持 后 
SIG(0) 的 流行 度 出 现下 滑 ， 因 此 我 们 不 再 进一步 对 其 进行 讨论 。 
18.10.3.3 TKEY 

TKEY Jc st id RAH A EHAE DNS 交换 安全 的 部 署 ， 比 如 TSIG 与 SIG(O)[RFC2930]. 
为 了 完成 这 项 工作 ， 会 动态 创建 TKEY 资源 记录 并 添加 到 DNS 请 求 与 响应 的 附加 信息 部 分 
发 送出 去 。 它 们 能 够 包含 密 钥 或 者 用 于 形成 密 钥 的 资料 ， 比 如 DH 公共 数值 。 它 可 能 在 本 地 
部 署 中 十 分 有 用 ， 但 缺乏 广泛 性 。 


18.10.4 带 有 DNS64 的 DNSSEC 


第 11 章 我 们 介绍 了 DNS64， 它 能 够 将 IPv6 的 DNS 请 求 转 换 为 IPv4 的 DNS 请 求 ， 并 
且 在 IPv4 DNS 中 的 A 记录 基础 上 合成 AAAA 记录 。 可 采用 一 种 方案 ， 以 允许 只 使 用 IPv6 
的 主机 访问 IPv4 服务 器 与 服务 。DNS64 通过 合成 AAAA 记录 进行 工作 。 然 而 在 DNSSEC 
H, DNS 资源 记录 需要 被 签名 机 构 (通常 为 域名 所 有 者 或 区 域 管理 员 ) 签署 。 这 样 就 提出 了 
一 个 挑战 : 如 果 缺 少 能 够 生成 与 DNSSEC 兼容 的 签名 的 密 钥 ，DNS64 怎样 才能 合成 资源 记 
K? 答案 从 本 质 上 讲 是 否定 的 (参见 [RFC6147] 的 5.5 节 与 6.2 节 )。 

为 了 在 运行 DNS64 时 结合 DNSSEC， 需 要 在 主机 端 (其 中 DNS64 要 能 够 实现 ) 或 
DNS64 设备 上 执行 验证 函数 ， 并 且 假 设 在 存根 解析 器 与 作为 递归 名 称 服 务 器 的 DNS64 之 间 
有 一 条 安全 的 通道 。 验 证 DNS64 也 称 为 VDNS64.. vDNS64 会 解释 到 达 请 求 的 CD 位 与 DO 
位 。 如 果 它 们 都 没有 被 置 位 ，vDNS64 将 会 执行 合成 与 验证 ， 但 是 不 会 在 (已 验证 的 ) 响应 
中 将 AD 位 置 位 。 如 果 DO 位 被 置 位 而 CD 位 未 被 置 位 ，vDNS64 将 会 执行 验证 与 合成 ， 并 
且 返 回 一 个 AD 位 被 置 位 的 已 验证 响应 (客户 端 大 概 能 推测 出 这 表示 返回 的 资源 记录 是 可 信 
的 )。 需 要 注意 的 是 DNS64 首先 请 求 I Pv4 端的 AAAA 记录 并且 在 验证 出 这 些 AAAA 记录 
没有 相同 的 所 有 者 之 后 才 合 成 A 记录 。 如 果 DO 位 与 CD 位 均 被 置 位 ，DNS64 可 能 会 进行 验 
证 , 但 不 会 合成 。 在 这 种 情况 下 ， 客 户 端 被 认为 会 执行 验证 。 这 种 情况 代表 了 一 个 潜在 的 问 
题 ， 如 果 客 户 端 是 已 知 安全 的 ,但 不 能 清楚 地 完成 转换 ， 那 么 返回 的 资源 记录 可 能 不 能 用 于 
IPv6 的 地 址 域 中 。 


18.11 域名 密 钥 识别 邮件 

域名 密 钥 识别 邮件 (DomainKeys Identified Mail, DKIM) [RFC5585] 意 在 提供 一 个 实体 
与 一 个 域名 之 间 的 关联 ， 从 而 决定 哪 一 方 发 送 初 始 消 息 ， 特 别 是 以 电子 邮件 的 形式 。 它 提供 
了 一 种 方法 来 帮助 验证 消息 的 签名 者 (签名 者 不 一 定 是 消息 的 发 送 者 )。 此 外 ， 它 还 能 用 于 
在 电子 邮件 分 发 的 层面 上 ( 即 ， 邮 件 代 理 之 间 ) 帮助 治理 垃圾 邮件 。 这 一 工作 是 通过 在 基本 
的 Internet 消息 格式 中 添加 一 个 DKIM 签名 字段 实现 的 [RFC5322]， 该 字段 包含 了 对 消息 头 
部 与 消息 体 的 数字 签名 。DKIM 取代 了 早期 称 为 域名 密 钥 的 标准 ， 该 标准 使 用 域名 密 钥 签名 
字段 。 


18.11.1 DKIM 签名 


为 了 生成 一 条 消息 的 数字 签名 ， 签 名 域 标识 符 (SDID) 会 使 用 RSA/SHA-1 或 RSA/ 
SHA-256 算法 以 及 相关 的 私 钥 。SDID 是 来 自 DNS 的 域名 ， 并 用 于 检索 以 TXT 资源 记录 存 
储 的 公 钥 。 一 个 DKIM 签名 会 通过 Base64 (比如 PEM) 被 编码 为 一 个 消息 头 部 字段 。 该 签 
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名 能 够 签署 一 个 明确 列 出 的 消息 字段 与 消息 体 集 合 。 例 如 ， 当 接收 到 一 封 电子 邮件 时 ， 邮 
件 传输 代理 会 使 用 SDID 来 实现 一 个 DNS 查询 ， 从 而 找 出 相关 的 公 钥 。 该 公 钥 会 在 之 后 用 
于 验证 签名 。 这 样 就 避免 了 请 求 一 个 PKI 的 工作 。 所 拥有 的 域名 是 由 域 本 身 和 选择 器 〈 公 和 铀 
选择 器 ) 一 起 构成 的 。 例 如 ， 在 域 example.com 中 的 选择 器 key35 的 公 钥 是 一 条 由 key35._ 
domainkey.example.com 拥有 的 TXT 资源 记录 。 

消息 头 部 添加 了 DKIM 签名 字段 [RFC6376]， 而 该 字段 又 包含 若干 子 字段 (参见 
[DKPARAMS] 中 的 完整 列表 )。DKIM 的 运行 在 概念 上 类 似 于 DNS 的 发 件 人 策略 框架 (SPF, 
参见 第 11 章 )， 但 会 因为 加 密 数 字 签 名 而 变 得 更 强大 。DKIM 与 SPF 能 够 一 起 使 用 。 

DKIM 可 用 的 域 能 够 选择 加 入 作者 域 签名 实现 (Author Domain Signing Practices, 
ADSP) [RFC5617]。ADSP 涉及 创建 一 个 针对 某 个 域 的 机 器 可 读 的 签名 实现 声明 。 这 些 记 录 
放置 在 使 用 TXT 资源 记录 的 DNS 中 ， 所 有 者 的 名 称 为 adsp. domainkey.domain.。 目 前 的 
ADSP 记录 比较 简单 ， 仅 指出 授权 域 是 如 何 使 用 DKIM 签名 的 。 数 值 可 以 是 未 知 的 、 全 部 的 
或 可 丢弃 的 。 这 些 都 是 接收 代理 对 一 个 收 到 的 消息 可 能 做 出 操作 的 提示 。 未 知 的 表示 没有 特 
殊 声明 ; 全 部 的 表示 授权 者 签名 所 有 的 消息 ,但 未 签名 的 消息 可 能 仍 有 价值 ， 可 丢弃 的 表示 
未 签名 的 消息 应 该 考虑 丢弃 。 可 丢弃 的 是 最 严格 的 级 别 。 


18.11.2 例子 


为 了 让 读者 了 解 DKIM 签名 是 如 何 出 现在 电子 邮件 中 的 ， 我 们 简单 地 抽取 了 一 封 电 子 邮 
件 的 DKIM 签名 字段 。 该 电子 邮件 来 自 一 个 大 的 电子 邮件 提供 商 ， 比 如 Google 的 Gmail: 


DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; 
d=gmail.com; s=gamma; 
h=domainkey-signature:mime-version: received: 
sender: received:date 

:x-google-sender-auth:message-id:subject:from:to:content-type; 

bh=PU2XIErWsxXvhvt1W9 6ntPWZ2VImjVZ3vBY2T/A+wA3A=; 

b=WneQe6kpeu/Bf£Mfa2RS1A11TvYKfIKmoQRXNc 
IQJDIVOE38+£GDaj0uhNm8vXp/8kJI 
I8Hqtkv4/P6/QVPMN+/5bS5dsnlhz0S/YoP 
bZx0Lt2bD67G4HPsvm6eLsaIC9rQECUSL 
MdaTBK3BgFhYo3nenqg3+8GxTe9I+zBcqwAVPU= 


此 例 指出 DKIM 签名 的 版 本 号 为 1， 而 且 SHA-256 摘要 算法 使 用 RSA 签名 。 消 息 头 与 
消息 体 的 规范 算法 都 是 “不 严格 的 "， 如 “ec =” 字 段 所 示 。 规 范 算 法 用 于 按照 一 致 的 形式 重 
写 消 息 。 当 前 的 选项 为 “简单 ” (默认 设置 )， 它 不 会 改变 文本 。“ 不 严格 的 ”表示 能 够 按照 常 
用 的 方法 重 写 输 入 ， 比 如 更 改 空格 与 封装 较 长 的 头 部 行 。 选 择 器 (s=) 为 gamma, MER (d=) 
为 gmail.com。 稍 后 我 们 将 使 用 这 些 来 检索 合适 的 公 和 钥 。 用 于 计算 签名 的 头 字 段 (H “h=” 
表示 ) 包括 域 密 钥 签名 (DKIM 的 前 身 ) MIME 的 版 本 、 接 收发 送 日 期 x-google 发 送 者 认证 、 
AID, $M. BURAK. “bh =” 子 字段 指出 按 Base64 压缩 的 消息 体 的 散 列 值 。 
“b=” 子 字段 包含 了 针对 “h =” 子 字段 中 所 列 出 头 部 的 散 列 值 而 做 出 的 RSA 签名 。. 

为 了 检索 出 公 钥 来 验证 签名 ， 我 们 可 以 形成 下 面 的 查询 : 


Linux% dig gamma. domainkey.gmail.com. txt +nostats +noquestion 

; <<>> DiG 9.7.2-P3 <<>> gamma. domainkey.gmail.com. txt 
+nostats +noquestion 

;; global options: +cmd 

7; Got answer: 

;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 17372 
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;; flags: qr rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 0 


7; ANSWER SECTION: 

gamma. domainkey.gmail.com. 296 IN TXT "k=rsa\; t=y\; p=MIG£MA0GCS 
qGSIb3DQEBAQUAA4GNADCBiQKBgQDIhyR301t0y22Z0aBriVe9m/ iME3RqOJeasANSpg2YTHTYV 
+Xtp4xwf5gTjCmHOEMOs 0qYu0FYiNQPOQogJ2t0MEx9ZzNu06rf£RBDJilU9Itpx2T+NG1WZ8qhbiLo 
5By8apJavLyqTLavyPSrvsx0B3YzC63T4Age2CDqZYA+OwSMWOIDAQAB" 


结果 说 明 密 钥 是 一 个 RSA 公 钥 。t=y 条 目 表 示 域 正在 测试 DKIM。 这 意味 着 任何 DKIM 
验证 的 结果 不 应 该 最 终 影响 消息 的 传递 过 程 。 为 了 查看 一 个 ADSP 的 例子 ， 我 们 可 以 执行 下 
面 的 命令 : 


Linux% host -t txt adsp. domainkey .paypal.com. 
_adsp._domainkey.paypal.com descriptive text "dkim=discardable" 


此 处 我 们 能 看 到 Paypal 已 使 用 最 严格 的 DKIM 签名 策略 ， 并 建议 丢弃 DKIM 验证 失败 
的 消息 。 鉴 于 多 种 的 电子 邮件 系统 与 多 种 邮件 代理 重 写 消 息 的 方式 ， 使 用 ADSP 的 声明 目前 
是 十 分 少见 的 。 


18.12 与 安全 协议 相关 的 攻击 

有 关 安 全 协议 的 攻击 与 之 前 我 们 在 其 他 章节 中 看 到 的 协议 攻击 有 些 不 同 。 其 他 章节 讨论 
的 攻击 往往 会 利用 协议 在 设计 与 执行 上 的 一 些 漏洞 ， 从 而 造成 危害 。 这 些 协议 其 实 并 没有 真 
正 地 进行 安全 设计 。 安 全 协议 的 攻击 不 仅 会 采用 上 述 这 些 方式 ， 而 且 会 包含 一 些 破坏 安全 所 
依赖 的 数学 基础 的 加 密 攻击 。 攻 击 能 够 成 功 地 破坏 较 差 的 算法 、 弱 的 或 太 短 的 密 钥 ， 或 由 多 
种 组 件 构 成 却 使 得 安全 系统 更 弱 的 差劲 组 合 (一 个 经 典 而 有 趣 的 例子 是 VENONA 系统 的 密 
码 分 析 [VENONA]). 

为 了 理解 一 些 针 对 安全 协议 的 攻击 ， 我 们 从 最 底层 开始 逐渐 向 上 介绍 。 大 量 针对 802.11 
与 EAP 的 攻击 已 经 出 现 。802.11 (如 WEP 和 WPATKIP) 中 的 早期 安全 性 已 被 证 明 是 容易 破 
解 的 [TWP07] [OM09]。 虽 然 WPA2-AES 算法 选择 的 预 共 享 密 钥 (PSK) 会 暴露 出 一 个 巨大 
的 漏洞 给 字典 攻击 ,但 是 从 本 质 上 看 它 是 更 具 弹 力 的 。 

EAP 没有 自己 的 身份 认证 方法 , 但 是 却 继承 了 自己 所 依赖 的 身份 认证 方法 的 脆弱 性 。 
此 外 ， 那 些 使 用 密 钥 的 基于 EAP 的 系统 ， 如 果 密 钥 是 源 于 用 户 密码 的 (例如 ，EAP-GSS、 
EAP-LEAP、EAP-SIM)， 也 容易 受到 字典 攻击 。802.1X/EAP 容易 受到 包含 隧道 身份 验证 协 
议 的 MITM 攻击 (参见 [ANN02])。 这 一 问题 涉及 在 连接 双方 中 只 有 一 方 通过 身份 认证 之 后 
如 何 派 生出 一 个 会 话 密 钥 。 例 如 ， 如 果 服 务 器 验证 了 一 个 客户 端 ， 并 将 这 次 交换 作为 基础 通 
过 一 个 派生 的 会 话 密 钥 来 形成 一 个 安全 的 隧道 ， 而 其 他 验证 相反 方向 的 协议 将 会 在 隧道 内 运 
行 ， 那么 一 个 扮演 合法 客户 端的 MITM 攻击 是 有 可 能 的 。 

已 发 布 大 量 针 对 IPsec 的 攻击 ， 包 括 利 用 无 完整 性 保护 加 密 的 一 类 攻击 [PY06]。 这 是 一 
个 IPsec 文档 支持 但 不 鼓励 的 配置 选项 。 从 本 质 上 看 ， 在 不 被 发 现 的 前 提 下 使 用 位 翻转 攻击 
修改 密 文 的 能 力 ， 可 以 将 加 密 数 据 报 解密 为 那些 通过 可 预测 的 方式 损坏 的 数据 报 。 例 如 ， 一 
个 正确 设置 了 位 翻转 的 处 于 隧道 模式 的 ESP 数据 报 可 能 会 解码 出 一 个 数据 报 ， 该 数据 报 通 过 
人 为 地 增长 Internet 头 部 长 度 (HL) 字段 而 使 负载 被 当 作 (无 效 的 ) IP 选项 处 理 ， 最 终 产生 
一 条 对 攻击 者 有 用 的 ICMP 消息 。 

在 传输 层 ，SSL 2.0 被 证 明 在 密码 套件 回 滚 攻 击 中 是 脆弱 的 。 在 该 攻击 中 ， 中 间 人 能 够 
使 SSL 连接 的 每 一 端 都 只 包含 一 个 具有 弱 加 密 能 力 的 节点 。 这 样 就 会 使 节点 采用 一 个 不 安全 
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的 密码 套件 ， 而 攻击 者 可 以 利用 这 些 密码 套件 。 一 个 基于 SSL/TLS 的 更 复杂 的 攻击 会 利用 
在 接收 端的 运行 顺序 : 解密 、 删 除 填充 数据 、 检 查 MAC。 如 果 填 充 长 度 或 消息 认证 码 MAC 
是 不 正确 的 ， 将 会 产生 一 条 SSL 错误 消息 。 通 过 观察 这 些 错误 消息 的 时 序 ， 就 能 够 发 起 一 个 
Padding Oracle 攻击 (参见 [CHVV03]) 从 OpenSSH 中 恢复 出 明文 。Padding Oracle 攻击 能 够 
分 辨 出 明文 是 否 用 于 创建 一 个 具有 有 效 填 充 量 的 密 文 。 如 前 文 所 述 ， 一 个 更 新 的 攻击 (TLS 
1.2 的 ) 涉及 中 间 人 攻击 ,该 攻击 将 一 个 任意 长 度 的 前 缀 注入 一 个 TLS 关联 中 ， 当 一 个 合法 
的 客户 端 到 达 之 后 [RD09]， 该 关联 会 被 重新 协商 (但 不 会 继续 )。 上 述 攻 击 的 解决 方法 是 将 
之 前 的 信道 参数 绑 定 到 使 用 TLS 关联 的 子 信道 中 。 关 于 信道 绑 定 与 安全 的 问题 在 [RFC5056] 
中 有 详细 的 介绍 。 

保障 DNS 的 安全 已 经 提出 很 长 时 间 ， 但 是 它 的 重要 性 通过 第 11 章 介 绍 的 Kaminsky 组 
存 位 置 攻击 才 得 以 重视 。 另 一 个 提出 较 早 的 问题 是 可 以 利用 NSEC 记录 发 起 枚 举 攻击 ， 并 且 
还 可 以 利用 NSEC3 记录 应 对 该 攻击 [BM09]。2009 EERE, F- 伯 恩 斯 坦 在 一 次 研讨 会 上 
提出 了 若干 关于 DNSSEC 的 问题 [B09] : 它 能 够 作为 扩大 DoS 攻击 的 基础 ， 即 使 在 NSEC3 
中 ， 它 也 会 泄露 区 域 数 据 ， 它 的 实现 包含 了 可 利用 的 错误 与 不 能 撤销 的 签名 ， 加 密 可 能 会 受 
ee 一 些 NS 与 A 记录 会 造成 漏洞 。 在 撰写 本 书 时 ， 根 区 域 只 在 最 近 才 被 签名 ， 而 

恨 少 有 组 织 会 完整 地 采纳 DNSSEC。 因 此 ， 在 未 来 几 年 一 些 改进 与 修订 可 能 会 逐步 实施 。 


18.13 总结 


安全 的 主题 是 广泛 而 有 趣 的 ， 本 章 只 涉及 了 一 些 简 单 的 内 容 。 我 们 希望 了 解 安 全 通信 的 
几 个 重要 属性 ， 通 常 这 些 属性 是 由 机 密 性 、 可 认证 性 、 完 整 性 以 及 不 可 否认 性 组 合 构成 的 。 
加 密 是 实现 上 述 信 息 安全 属性 最 重要 的 工具 。 它 包含 一 套 算法 与 密 钥 。 两 种 重要 的 加 密 方式 
FEM Pat “SEGA” DARA SAGA GERME) 加 密 技术 。 前 者 拥有 良好 的 计算 性 能 但 要 
求 密 钥 保密 ， 而 后 者 要 求 每 一 个 个 体 都 拥有 一 对 密 钥 ， 并 将 其 中 之 一 作为 公 钥 。 公 钥 密 码 技 
术 能 够 提供 认证 与 保障 机 密 性 的 功能 ， 并 且 还 可 以 与 对 称 密 钥 加 密 技术 结合 使 用 ， 从 而 获 
得 更 好 的 性 能 。 其 他 与 加 密 技术 相关 的 数学 算法 还 包括 用 于 建立 对 称 密 钥 的 Diffie-Hellman 
密 钥 协商 协议 ， 为 密 钥 选择 随机 组 件 的 伪 随 机 函数 ， 用 于 检验 消息 完整 性 的 消息 验证 码 
(MAC)。 使 用 随机 数 的 协议 试图 保证 消息 的 时 新 性 ， 它 通过 要 求 请 求 与 响应 都 维护 一 个 最 近 
生成 的 公共 数值 来 抵御 重 放 攻击 。 混 淆 值 (在 加 密 的 意义 上 讲 ) 用 于 干扰 算法 或 算法 的 输出 ， 
从 而 使 字典 攻击 更 加 难以 实现 。 

在 使 用 公 钥 时 ， 通常 希 望 公 钥 能 够 信任 的 实体 或 组 织 签名 认证 。 包 含 一 个 或 多 个 证 书 颁 
发 机 构 的 公 钥 基础 设施 (PKI) 通常 用 于 实现 上 述 目标 ， 此 外 信任 网 络 模型 也 是 一 种 可 行 的 
方法 。 维 护 PKI 公 钥 〈 以 及 其 他 材料 ) 的 最 常见 格式 是 基于 PKI 与 证 书 的 ITU-T X.509 标准 。 
证 书 通常 会 被 递归 地 签署 ， 从 而 形成 一 棵 树 。 整 个 过 程 以 到 达 最 高 层 的 信任 根 (或 信任 销 点 ) 
为 结束 。 为 了 保证 信任 链 的 正确 性 ， 证 书 必 须 经 过 验证 ， 从 而 保证 证 书 链 没有 断裂 ， 并 且 每 

一 个 链 节 点 也 没有 被 撤销 。 证 书 的 状态 可 以 通过 广泛 分 布 的 证 书 撤销 列表 (CRL) 或 在 线 协 
N (比如 OCSP) 来 评估 。 整 个 证 书 验证 过 程 也 可 以 通过 SCVP 协议 授权 给 男 一 方 。SCVP 是 
专 为 验证 证 书 设计 的 协议 。 

有 许多 用 于 维护 证 书 与 密 角 的 文件 格式 。DER 或 CER 是 一 一 种 基于 ASN.1 的 二 进 制 编 
码 。PEM 格式 以 ASCII 码 形式 将 DER 编码 表示 出 来 ， 因 此 对 应 的 文件 易于 编辑 和 检查 。 
PKCS#12 (Wk PFX 的 前 身 ) 格式 能 够 同时 维护 证 书 和 私 钥 ， 并 且 它 通常 会 被 加 密 以 保护 私 
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钥 材 料 。 许 多 应 用 程序 (比如 openssl) 具有 格式 转换 功能 。 

有 些 安全 协议 会 针对 某 一 个 协议 层 ， 而 有 一 些 安全 协议 则 会 跨越 多 个 协议 层 。 虽 然 不 会 
TCP/IP 协议 那样 被 经 常 讨论 ， 但 是 一 些 链 路 技术 (包括 它们 自己 的 加 密 与 认证 协议 ) 从 第 
2 层 起 就 开始 了 保障 安全 的 工作 。 在 TCP/IP HNF, EAP 用 于 建立 包含 多 种 机 制 的 身份 验 
证 ， 比 如 机 器 证 书 、 用 户 证 书 、 智 能 卡 、 密 码 等 。EAP 常用 于 拥有 后 台 认 证 或 AAA 服务 器 
的 企业 设置 。EAP 还 可 以 用 于 其 他 协议 的 认证 ， 比 如 IPsec。 

IPsec 是 一 个 提供 第 3 层 安 全 的 协议 集合 ， 其 中 包括 IKE、AH AR ESP, IKE 建立 并 
管理 双方 之 间 的 安全 关联 。 安 全 关联 涉及 认证 (AH) 或 加 密 (ESP), 并且 能 够 运行 于 传输 
或 隧道 模式 。 在 传输 模式 中 ， 会 修改 人 P 头 部 以 进行 认证 或 加 密 ， 而 在 隧道 模式 中 ，IP 数 
据 报 会 被 完全 放置 在 一 个 新 的 IP 数据 报 中 。ESP 是 IPsec 最 流行 的 协议 。 所 有 的 IPsec H 
议 能 够 使 用 不 同 的 算法 与 参数 (加密 套件 ) 进行 加 密 、 完 整 性 保护 、DH 密 钥 协商 以 及 身份 
认证 。 

沿 协议 栈 向 上 查看 ， 传 输 层 安全 (当前 版 本 为 TLS 1.2) 保护 了 两 个 应 用 程序 之 间 的 信 
息 。 它 拥有 自己 的 内 部 分 层 ， 包 含 一 个 记录 层 协 议和 三 个 信息 交换 协议 : 密码 更 改 协议 、 警 
告 协 议 、 握 手 协议 。 此 外 ， 记 录 协 议 支 持 应 用 数据 。 记 录 层 负责 根据 握手 协议 提供 的 参数 
加 密 数据 并 保障 它们 的 完整 性 。 密 码 更 改 协议 用 于 将 之 前 设 定 的 挂 起 协议 状态 更 改 为 活动 协 
议 状 态 。 警 告 协议 会 指出 错误 或 连接 问题 。 与 TCP/IP 一 起 使 用 的 TLS 是 使 用 最 广泛 的 安全 
协议 ， 并 且 它 还 支持 加 密 的 Web 浏览 器 连接 (HTTPS). TLS 的 一 个 变种 称 为 DTLS， 它 将 
TLS 应 用 于 数据 报 协议 ， 比 如 UDP 与 DCCP。 

为 了 更 好 地 保护 主机 名 与 Web 的 安全 ，DNSSEC 致力 于 为 DNS 提供 安全 保障 。2010 
年 7 月 15 日 ，Internet 的 签名 根 区 域 投 入 运行 ， 从 而 满足 了 全 球 部 署 的 一 个 先决 条 件 。 
DNSSEC 借助 DNS 中 的 几 个 新 资源 记录 工作 ， 其 中 包括 DNSKEY, DS, NSEC/NSEC3/ 
NSEC3PARAM 以 及 RRSIG。 前 两 个 资源 记录 用 于 指出 并 维护 负责 签名 某 一 区 域 结构 与 内 容 
的 公 钥 。NSEC 或 NSEC3/NSEC3PARAM 记录 有 助 于 提供 一 个 规范 有 序 的 名 称 和 域名 的 类 型 
列表 。RRSIG 记录 维护 了 其 他 记录 中 的 签名 与 签署 区 域 ， 区 域 中 所 有 的 权威 资源 记录 必须 有 
相关 的 RRSIG 资源 记录 。 一 旦 被 设置 ，DNS 查询 的 安全 性 会 被 一 个 DNS 验证 解析 器 或 请 求 
一 个 信任 锚 点 的 名 称 服 务 器 检查 。 这 样 的 系统 通过 检查 来 保证 数字 签名 与 DNS HEM AH 
相 匹 配 。 当 发 现 一 些 记 录 不 一 致 时 ， 它 允许 生成 错误 ， 同 时 ， 它 也 能 够 抵御 那 种 攻击 者 伪装 
成 合法 主机 的 域名 支持 攻击 。 在 一 些 情况 下 ,DNS 交换 也 会 受到 安全 保护 。TSIG 与 SIG(0) 
协议 提供 了 一 种 信道 认证 形式 ,但 只 适用 于 DNS 交换 的 范围 。 这 些 协议 用 于 诸如 DNS 动态 
更 新 和 区 域 转移 之 类 的 交换 。 

安全 协议 的 攻击 不 仅 包含 了 那些 常见 的 利用 实现 漏洞 和 不 安全 的 设计 的 攻击 ， 还 包含 
了 数学 危害 以 及 用 于 发 现 秘 密 信 息 的 “ 侧 信道 ”攻击 〈 例 如 ， 密 钥 的 比特 位 )。 多 年 来 ,在 
用 于 安全 通信 的 密码 技术 中 ， 满 足 灵 活性 的 需求 已 经 成 为 明确 的 共识 ， 因 此 我 们 讨论 的 绝 
大 多 数 协议 都 提供 了 加 密 套件 。 这 些 加 密 套 件 会 随 着 计算 能 力 的 提高 与 额外 经 验 的 获取 而 
不 断 发 展 。 许 多 看 似 安全 的 协议 ， 即 便 受 到 专家 的 广泛 审查 ， 也 已 经 成 为 一 帮 精 力 充 沛 的 
分 析 者 的 “猎物 ”。 这 些 分 析 者 会 寻找 可 以 利用 的 错误 ， 尤 其 是 那些 使 中 间 人 或 其 他 主动 
攻击 成 为 可 能 的 错误 。 在 设计 新 的 安全 协议 及 按照 安全 的 方式 运行 现 有 协议 时 ， 需 要 格外 
小 心 。 


ER: THRIDIGEDR, PRAHI, BREZA, DNN ZA, ARARA BH 


18.14 参考 文献 


[802.1X-2010] “IEEE Standard for Port-Based Network Access Control,” TEEE Std 
802.1X-2010, Feb. 2010. 


[AKNT04] Y. Amir, Y. Kim, C. Nita-Rotaru, and G. Tsudik, “On the Performance 
of Group Key Agreement Protocols,’ ACM Transactions on Information and System 
Security, 7(3), Aug. 2004. 


[ANN02] N. Asokan, V. Niemi, and K. Nyberg, “Man-in-the-Middle in Tunneled 
Authentication Protocols (Extended Abstract),” Proc. 11th Security Protocols Work- 
shop/LNCS 3364 (Springer, 2003). 


[B06] M. Bellare, “New Proofs for NMAC and HMAC: Security without 
Collision-Resistance” (preliminary version in CRYPTO 06), June 2006. 


[B09] D. Bernstein, “Breaking DNSSEC,” keynote talk at Workshop on Offensive 
Technologies (WOOT), Aug. 2009. 


[BCK96] M. Bellare, R. Canetti, and H. Krawczyk, “Keying Hash Functions for 
Message Authentication” (abridged version in CRYPTO 96/LNCS 1109), June 
1996. 


[BM09] J. Bau and J. Mitchell, “A Security Evaluation of DNSSEC with NSEC3,” 
Network and Distributed System Security Symposium (NDSS), Feb.—Mar. 2010. 


[BOPSW09] R. Biddle et al., “Browser Interfaces and Extended Validation SSL 
Certificates: An Empirical Study,” Proc. ACM Cloud Security Workshop, Nov. 2009. 


[CABF09] CA/Browser Forum, “Guidelines for the Issuance and Management 
of Extended Validation Certificates (v1.2),” 2009, http://www.cabforum.org/ 
Guidelines_v1_2.pdf 


[CHP] National Institute of Standards and Technology, Cryptographic Hash 
Project, Computer Security Division—Computer Security Resource Center, 
http://csre.nist.gov/groups/ST/hash 


[CHV V03] B. Canvel, A. Hiltgen, S. Vaudenay, and M. Vuagnoux, “Password 
Interception in a SSL/TLS Channel,” CRYPTO 2003/LNCS 2729. 


[DH76] W. Diffie and M. Hellman, “New Directions in Cryptography,” IEEE 
Transactions on Information Theory, IT-22, Nov. 1976. 


[DKPARAMS] http://www.iana.org/assignments/dkim-parameters 
[DNSSECALG] http://www.iana.org/assignments/dns-sec-alg-numbers 


[DOW92] W. Diffie, P. Oorschot, and M. Wiener, “Authentication and uthenti- 
cated Key Exchanges,” Designs, Codes and Cryptography, 2, June 1992. 
[DSRRTYPES] http://www.iana.org/assignments/ds-rr-types 

[FIPS186-3] National Institute for Standards and Technology, “Digital Signature 
Standard (DSS),” FIPS PUB 186-3, June 2009. 


[FIPS197] National Institute for Standards and Technology, “Advanced Encryp- 
tion Standard (AES),” FIPS PUB 197, Nov. 2001. 


[FIPS198] National Institute for Standards and Technology, “The Keyed-Hash 
Message Authentication Code (HMAC),” FIPS PUB 198, Mar. 2002. 


[FIPS800-38B] National Institute for Standards and Technology, “Recommenda- 
tion for Block Cipher Modes of Operation: The CMAC Mode for Authentication,” 
NIST Special Publication 800-38B, May 2005. 


[GGM86] O. Goldreich, S. Goldwasser, and S. Micali, “How to Construct Random 
Functions,” Journal of the ACM, 33(4), Oct. 1986. 


657 


658 BIS F< 


[IDDCIN] S. Weiler and D. Blacka, “Clarifications and Implementation Notes for 
DNSSECbis,” Internet draft-ietf-dnsext-dnssec-bis-updates, work in progress, 
July 2011. 


[IDDS2] B. Dickson, “DNSSEC Delegation Signature with Canonical Signer 
Name,” Internet draft-dickson-dnsext-ds2 (expired), work in progress, Nov. 2010. 


[IDDTLS] E. Rescorla and N. Modadugu, “Datagram Transport Layer Security 
Version 1.2,” Internet draft-ietf-tls-rfc4347-bis, work in progress, July 2011. 


[IEAP] http://www.iana.org/assignments/eap-numbers 


[IK03] T. Iwata and K. Kurosawa, “OMAC: One-Key CBC MAC,” Proc. Fast Soft- 
ware Encryption, Mar. 2003. 


[IKEPARAMS] http://www.iana.org/assignments/ikev2-parameters 
[IPANA] http://www.iana.org/assignments/pana-parameters 
[ITUOID] http://www. itu.int/ITU-T/asn1 

[IWESP] http://www.iana.org/assignments/wesp-flags 


[K87] N. Koblitz, “Elliptic Curve Cryptosystems,” Mathematics of Computation, 48, 
1987. 3 


[L01] C. Landwehr, “Computer Security,” Springer-Verlag Online, July 2001. 


[M85] V. Miller, “Uses of Elliptic Curves in Cryptography,” Advances in Cryptol- 
ogy: CRYPTO 85, Lecture Notes in Computer Science, Volume 218 (Springer- 
Verlag, 1986). 


[MSK09] S. McClure, J. Scambray, and G. Kurtz, Hacking Exposed, Sixth Edition 
(McGraw-Hill, 2009). 

[MW99] U. Maurer and S. Wolf, “The Relationship between Breaking the Diffie- 
Hellman Protocol and Computing Discrete Logarithms,” Siam Journal on Comput- 
ing, 28(5), 1999. 

[NAZ00] Network Associates and P. Zimmermann, Introduction to Cryptogra- 
phy, Part of PGP 7.0 Documentation, available from http://www.pgpi.org/doc/ 
guide/7.0/en 

[NIST800-38B] National Institute for Standards and Technology, “Recommenda- 


tion for Block Cipher Modes of Operation: Galois/Counter Mode (GCM) and 
GMAC,” NIST Special Publication 800-38D, Nov. 2005. 


[NSEC3PARAMS] http://www.iana.org/assignments/dnssec-nsec3-parameters 


[OM09] T. Ohigashi and M. Morii, “A Practical Message Falsification Attack on 
WPA,” Joint Workshop on Information Security, Aug. 2009. 


[PY06] K. Paterson and A. Yau, “Cryptography in Theory and Practice: The Case 
of Encryption in IPsec,” EUROCRYPT 2006/LNCS 4004. 


[RD09] M. Ray and S. Dispensa, “Renegotiating TLS,” PhoneFactor Technical 
Report, Nov. 2009. 


[RFC1321] R. Rivest, “The MD5 Message-Digest Algorithm,” Internet RFC 1321 
(informational), Apr. 1992. 


[RFC2104] H. Krawczyk, M. Bellare, and R. Canetti, “HMAC: Keyed-Hashing for 
Message Authentication,” Internet RFC 2104 (informational), Feb. 1997. 


[RFC2403] C. Madson and R. Glenn, “The Use of HMAC-MD5-96 within ESP and 
AH,” Internet RFC 2403, Nov. 1998. 


[RFC2404] C. Madson and R. Glenn, “The Use of HMAC-SHA-1-96 within ESP 


ZA: TFAIOAEHHX, PRAHI, BMWEZA, DNN EA. ERARA 659 


and AH,” Internet RFC 2404, Nov. 1998. 


[RFC2409] D. Harkins and D. Carrel, “The Internet Key Exchange (IKE),” Internet 
RFC 2409 (obsolete), Nov. 1998. 


[RFC2410] R. Glenn and S. Kent, “The NULL Encryption Algorithm and Its Use 
with IPsec,” Internet RFC 2410, Nov. 1998. 


[RFC2451] R. Pereira and R. Adams, “The ESP CBC-Mode Cipher Algorithms,” 
Internet RFC 2451, Nov. 1998. 


[RFC2560] M. Myers, R. Ankney, A. Malpani, S. Galperin, and C. Adams, “X.509 
Internet Public Key Infrastructure Online Certificate Status Protocol—OCSP,” 
Internet RFC 2560, June 1999, 


[RFC2631] E. Rescorla, “Diffie-Hellman Key Agreement Method,” Internet RFC 
2631, June 1999. 


[RFC2671] P. Vixie, “Extension Mechanisms for DNS (EDNS0),” Internet RFC 
2671, Aug. 1999. 


[RFC2845] P. Vixie, O. Gudmundsson, D. Eastlake 3rd, and B. Wellington, “Secret 
Key Transaction Authentication for DNS (TSIG),” Internet RFC 2845, May 2000. 


[RFC2865] C. Rigney, S. Willens, A. Rubens, and W. Simpson, “Remote Authenti- 
cation Dial In User Service (RADIUS),” Internet RFC 2865, June 2000. 


[RFC2930] D. Eastlake 3rd, “Secret Key Establishment for DNS (TKEY RR),” 
Internet RFC 2930, Sept. 2000. 


[RFC2931] D. Eastlake 3rd, “DNS Request and Transaction Signatures ( SIG(0)s ),” 
Internet RFC 2931, Sept. 2000. 


[RFC3162] B. Aboba, G. Zorn, and D. Mitton, “RADIUS and IPv6,” Internet RFC 
3162, Aug. 2001. 


[RFC3173] A. Shacham, B. Monsour, R. Pereira, and M. Thomas, “IP Payload 
Compression Protocol (IPComp),” Internet RFC 3173, Sept. 2001. 


[RFC3193] B. Patel, B. Aboba, W. Dixon, G. Zorn, and S. Booth, “Securing L2TP 
Using IPsec,” Internet RFC 3193, Nov. 2001. 


[RFC3225] D. Conrad, “Indicating Resolver Support of DNSSEC,” Internet RFC 
3225, Dec. 2001. 


[RFC3447] J. Jonsson and B. Kaliski, “Public-Key TETEN Standards 
(PKCS) #1: RSA Cryptography Specifications Version 2.1,” Internet RFC 3447 
(informational), Feb. 2003. 


[RFC3526] T. Kivinen and M. Kojo, “More Modular Exponential (MODP) Diffie- 
Hellman Groups for Internet Key Exchange (IKE),” Internet RFC 3526, May 2003. 


[RFC3547] M. Baugher, B. Weis, T. Hardjono, and H. Harney, “The Group 
Domain of Interpretation,” Internet RFC 3547, July 2003. 


[RFC3566] S. Frankel and H. Herbert, “The AES-XCBC-MAC-96 Algorithm and 
Its Use with IPsec,” Internet RFC 3566, Sept. 2003. 


[RFC3588] P. Calhoun, J. Loughney, E. Guttman, G. Zorn, and J. Arkko, “Diam- 
eter Base Protocol,” Internet RFC 3588, Sept. 2003. 


[RFC3602] S. Frankel, R. Glenn, and S. Kelly, “The AES-CBC Cipher Algorithm 
and Its Use with IPsec,” Internet RFC 3602, Sept. 2003. 


[RFC3645] S. Kwan, P. Garg, J. Gilroy, L. Esibov, J. Westhead, and R. Hall, 
“Generic Security Service Algorithm for Secret Key Transaction Authentication 
for DNS (GSS-TSIG),” Internet RFC 3645, Oct. 2003. 


660 #18 Ž 





[RFC3686] R. Housley, “Using Advanced Encryption Standard (AES) Counter 
Mode with IPsec Encapsulating Security Payload (ESP),” Internet RFC 3686, Jan. 
2004. 


[RFC3713] M. Matsui, J. Nakajima, and S. Moriai, “A Description of the Camellia 
Encryption Algorithm,” Internet RFC 3713 (informational), Apr. 2004. 


[RFC3715] B. Aboba and W. Dixon, “IPsec-Network Address Translation (NAT) 
Compatibility Requirements,” Internet RFC 3715 (informational), Mar. 2001. 


[RFC3740] T. Hardjono and B. Weis, “The Multicast Group Security Architec- 
ture,” Internet RFC 3740 (informational), Mar. 2004. 


[RFC3748] B. Aboba, L. Blunk, J. Vollbrecht, J. Carlson, and H. Levkowetz, ed., 
“Extensible Authentication Protocol (EAP),” June 2004. 


[RFC3749] S. Hollenbeck, “Transport Layer Security Protocol Compression 
Methods,” Internet RFC 3749, May 2004. 


[RFC3947] T. Kivinen, B. Swander, A. Huttunen, and V. Volpe, “Negotiation of 
NAT-Traversal in the IKE,” Internet RFC 3947, Jan. 2005. 


[RFC3948] A. Huttunen, B. Swander, V. Volpe, L. DiBurro, and M. Stenberg, 
“UDP Encapsulation of IPsec ESP Packets,” Internet RFC 3948, Jan. 2005. 


[RFC4016] M. Parthasarathy, “Protocol for Carrying Authentication and Network 
Access (PANA) Threat Analysis and Security Requirements,” Internet RFC 4016 
(informational), Mar. 2005. 


[RFC4033] R. Arends, R. Austein, M. Larson, D. Massey, and S. Rose, “DNS Secu- 
rity Introduction and Requirements,” Internet RFC 4033, Mar. 2005. 


[RFC4034] R. Arends, R. Austein, M. Larson, D. Massey, and S. Rose, “Resource 
Records for the DNS Security Extensions,” Internet RFC 4034, Mar. 2005. 


[RFC4035] R. Arends, R. Austein, M. Larson, D. Massey, and S. Rose, “Protocol 
Modifications for the DNS Security Extensions,” Internet RFC 4035, Mar. 2005. 


[RFC4058] A. Yegin, ed., Y. Ohba, R. Penno, G. Tsirtsis, and C. Wang, “Protocol 
for Carrying Authentication for Network Access (PANA) Requirements,” Internet 
RFC 4058 (informational), May 2005. 


[RFC4086] D. Eastlake 3rd, J. Schiller, and S. Crocker, “Randomness Require- 
ments for Security,” Internet RFC 4086/BCP 0106, June 2005. 


[RFC4120] C. Neuman, T. Yu, 9. Hartman, and K. Raeburn, “The Kerberos Net- 
work Authentication Service (V5),” Internet RFC 4120, July 2005. 


[RFC4251] T. Ylonen and C. Lonvick, ed., “The Secure Shell (SSH) Protocol Archi- 
tecture,” Internet RFC 4251, Jan. 2006. 


[RFC4301] S. Kent and K. Seo, “Security Architecture for the Internet Protocol,” 
Internet RFC 4301, Dec. 2005. 


[RFC4302] S. Kent, “IP Authentication Header,” Internet RFC 4302, Dec. 2005. 


[RFC4303] S. Kent, “IP Encapsulating Security Payload (ESP),” Internet RFC 4303, 
Dec. 2005. 


[RFC4307] J. Schiller, “Cryptographic Algorithms for Use in the Internet Key 
Exchange Version 2 (IKEv2),” Internet RFC 4307, Dec. 2005. 


[RFC4309] R. Housley, “Using Advanced Encryption Standard (AES) CCM Mode 
with IPsec Encapsulating Security Payload (ESP),” Internet RFC 4309, Dec. 2005. 


[RFC4346] T. Dierks and E. Rescorla, “The Transport Layer Security (TLS) Proto- 
col Version 1.1,” Internet RFC 4346 (obsolete), Apr. 2006. 


EA: THRIDLIEMR, IPFA, BRAZA, DNS EA. RE BARI SE 661 


[RFC4347] E. Rescorla and N. Modadugu, “Datagram Transport Layer Security,” 
Internet RFC 4347, Apr. 2006. 


[RFC4398] S. Josefsson, “Storing Certificates in the Domain Name System 
(DNS),” Internet RFC 4398, Mar. 2006. 


[RFC4431] M. Andrews and S. Weiler, “The DNSSEC Lookaside Validation (DLV) 
DNS Resource Record,” Internet RFC 4431 (informational), Feb. 2006. 


[RFC4434] P. Hoffman, “The AES-XCBC-PRF-128 Algorithm for the Internet Key 
Exchange Protocol (IKE),” Internet RFC 4434, Feb. 2006. 


[RFC4492] S. Blake-Wilson, N. Bolyard, V. Gupta, C. Hawk, and B. Moeller, “Ellip- 
tic Curve Cryptography (ECC) Cipher Suites for Transport Layer Security (TLS),” 
Internet RFC 4492 (informational), May 2006. 


[RFC4493] JH. Song, R. Poovendran, J. Lee, and T. Iwata, “The AES-CMAC Algo- 
rithm,” Internet RFC 4493 (informational), June 2006. 


[RFC4509] W. Hardaker, “Use of SHA-256 in DNSSEC Delegation Signer (DS) 
Resource Records (RRs),” Internet RFC 4509, May 2006. 


[RFC4535] H. Harney, U. Meth, A. Colegrove, and G. Gross, “GSAKMP: Group 
Secure Association Key Management Protocol,” Internet RFC 4535, June 2006. 


[RFC4555] P. Eronen, “IKEv2 Mobility and Multihoming Protocol (MOBIKE),” 
Internet RFC 4555, June 2006. 


[RFC4615] J. Song, R. Poovendran, J. Lee, and T. Iwata, “The Advanced Encryp- 
tion Standard-Cipher-Based Message Authentication Code-Pseudo-Random 
Function-128 (AES-CMAC-PRF-128) Algorithm for the Internet Key Exchange 
Protocol (IKE),” Internet RFC 4615, Aug. 2006. 


[RFC4635] D. Eastlake 3rd, “HMAC SHA (Hashed Message Authentication Code, 
Secure Hash Algorithm) TSIG Algorithm Identifiers,” Internet RFC 4635, Aug. 
2006. 


[RFC4681] S. Santesson, A. Medvinsky, and J. Ball, “TLS User Mapping Exten- 
sion,” Internet RFC 4681, Oct. 2006. 


[RFC4739] P. Eronen and J. Korhonen, “Multiple Authentication Exchanges in the 
Internet Key Exchange (IKEv2) Protocol,” Internet RFC 4739 (experimental), Nov. 
2006. 


[RFC4754] D. Fu and J. Solinas, “IKE and IKEv2 Authentication Using the Elliptic 
Curve Digital Signature Algorithm (ECDSA),” Internet RFC 4754, Jan. 2007. 


[RFC4835] V. Manral, “Cryptographic Algorithm Implementation Requirements 
for Encapsulating Security Payload (ESP) and Authentication Header (AH),” 
Internet RFC 4835, Apr. 2007. 


[RFC4851] N. Cam-Winget, D. McGrew, J. Salowey, and H. Zhou, “The Flexible 
Authentication via Secure Tunneling Extensible Authentication Protocol Method 
(EAP-FAST),” Internet RFC 4851 (informational), May 2007. 


[RFC4877] V. Devarapalli and F. Dupont, “Mobile IPv6 Operation with IKEv2 and 
the Revised IPsec Architecture,” Internet RFC 4877, Apr. 2007. 


[RFC4880] J. Callas, L. Donnerhacke, H. Finney, D. Shaw, and R. Thayer, “Open- 
PGP Message Format,” Internet RFC 4880, Nov. 2007. 


[RFC5011] M. StJohns, “Automated Updates of DNS Security (DNSSEC) Trust 
Anchors,” Internet RFC 5011, Sep. 2007. 


[RFC5054] D. Taylor, T. Wu, N. Mavrogiannopoulos, and T. Perrin, “Using the 
Secure Remote Password (SRP) Protocol for TLS Authentication,” Internet RFC 


.662 #18 È 





5054 (informational), Nov. 2007. 


[RFC5055] T. Freeman, R. Housley, A. Malpani, D. Cooper, and W. Polik, “Server- 
Based Certificate Validation Protocol (SCVP),” Internet RFC 5055, Dec. 2007. 


[RFC5056] N. Williams, “On the Use of Channel Bindings to Secure Channels,” 
Internet RFC 5056, Nov. 2007. 


[RFC5077] J. Salowey, H. Zhou, P. Eronen, and H. Tschofenig, “Transport Layer 
Security (TLS) Session Resumption without Server-Side State,” Internet RFC 5077, 
Jan. 2008. 


[RFC5106] H. Tschofenig, D. Kroeselberg, A. Pashalidis, Y. Ohba, and F. Bersani, 
“The Extensible Authentication Protocol-Internet Key Exchange Protocol Version 
2 (EAP-IKEv2) Method,” Internet RFC 5106 (experimental), Feb. 2008. 


[RFC5114] M. Lepinski and S. Kent, “Additional Diffie-Hellman Groups for Use 
with IETF Standards,” Internet RFC 5114 (informational), Jan. 2008. 


[RFC5116] D. McGrew, “An Interface and Algorithms for Authenticated Encryp- 
tion,” Internet RFC 5116, Jan. 2008. 


[RFC5155] B. Laurie, G. Sisson, R. Arends, and D. Blacka, “DNS Security (DNS- 
SEC) Hashed Authenticated Denial of Existence,” Internet RFC 5155, Mar. 2008. 


[RFC5191] D. Forsberg, Y. Ohba, ed., B. Patil, H. Tschofenig, and A. Yegin, “Proto- 
col for Carrying Authentication for Network Access (PANA),” Internet RFC 5191, 
May 2008. 


[RFC5193] P. Jayaraman, R. Lopez, Y. Ohba, ed., M. Parthasarathy, and A. Yegin, 
“Protocol for Carrying Authentication for Network Access (PANA) Framework,” 
Internet RFC 5193 (informational), May 2008. 


[RFC5216] D. Simon, B. Aboba, and R. Hurst, “The EAP-TLS Authentication Pro- 
tocol,” Internet RFC 5216, Mar. 2008. 


[RFC5238] T. Phelan, “Datagram Transport Layer Security (DTLS) over the Data- 
gram Congestion Control Protocol (DCCP),” Internet RFC 5238, May 2008. 


[RFC5246] T. Dierks and E. Rescorla, “The Transport Layer Security (TLS) Proto- 
col Version 1.2,” Internet RFC 5246, Aug. 2008. 


[RFC5247] B. Aboba, D. Simon, and P. Eronen, “Extensible Authentication Proto- 
col (EAP) Key Management Framework,” Internet RFC 5247, Aug. 2008. 


[RFC5280] D. Cooper, S. Santesson, S. Farrell, S. Boeyen, R. Housley, and W. Polk, 
“Internet X.509 Public Key Infrastructure Certificate and Certificate Revocation 
List (CRL) Profile,” Internet RFC 5280, May 2008. 


[RFC5281] P. Funk and S. Blake-Wilson, “Extensible Authentication Protocol Tun- 
neled Transport Layer Security Authenticated Protocol Version 0 (EAP-TTLSv0),” 
Internet RFC 5281 (informational), Aug. 2008. 


[RFC5295] J. Salowey, L. Dondeti, V. Narayanan, and M. Nakhjiri “Specification 
for the Derivation of Root Keys from an Extended Master Session Key (EMSK),” 
Internet RFC 5295, Aug. 2008. 


[RFC5296] V. Narayanan and L. Dondeti, “EAP Extensions for EAP Re-authenti- 
cation Protocol (ERP),” Internet RFC 5296, Aug. 2008. 


[RFC5322] P. Resnick, ed., “Internet Message Format,” Internet RFC 5322, Oct. 
2008. 


[RFC5374] B. Weis, G. Gross, and D. Ignjatic, “Multicast Extensions to the Secu- 
rity Architecture for the Internet Protocol,” Internet RFC 5374, Nov. 2008. 


ER: THRIQUIEMR, PAAR, BREZA, DNSEA, KREBARAI EH 663 


[RFC5386] N. Williams and M. Richardson, “Better-than-Nothing Security: An 
Unauthenticated Mode of IPsec,” Internet RFC 5386, Nov. 2008. 


[RFC5387] J. Touch, D. Black, and Y. Wang, “Problem and Applicability Statement 
for Better-than-Nothing Security (BTNS),” Internet RFC 5387 (informational), 
Nov. 2008. 


[RFC5406] S. Bellovin, “Guidelines for Specifying the Use of IPsec Version 2,” 
Internet RFC 5406/BCP 0146, Feb. 2009. 


[RFC5585] T. Hansen, D. Crocker, and P. Hallam-Baker, “DomainKeys Identified 
Mail (DKIM) Service Overview,” Internet RFC 5585 (informational), July 2009. 


[RFC5617] E. Allman, J. Fenton, M. Delany, and J. Levine, “DomainKeys Identi- 
fied Mail (DKIM) Author Domain Signing Practices (ADSP),” Internet RFC 5617, 
Aug. 2009. 


[RFC5652] R. Housley, “Cryptographic Message Syntax (CMS),” Internet RFC 
5652/STD 0070, Sept. 2009. 


[RFC5702] J. Jansen, “Use of SHA-2 Algorithms with RSA in DNSKEY and RRSIG 
Resource Records for DNSSEC,” Internet RFC 5702, Oct. 2009. 


[RFC5723] Y. Sheffer and H. Tschofenig, “Internet Key Exchange Protocol Version 
2 (IKEv2) Session Resumption,” Internet RFC 5723, Jan. 2010. 


[RFC5739] P. Eronen, J. Laganier, and C. Madson, “IPv6 Configuration in Internet 
Key Exchange Protocol Version 2 (IKEv2),” Internet RFC 5739 (experimental), 
Feb. 2010. 


[RFC5746] E. Rescorla, M. Ray, S. Dispensa, and N. Oskov, “Transport Layer Secu- 
rity (TLS) Renegotiation Indication Extension,” Internet RFC 5746, Feb. 2010. 


[RFC5753] S. Turner and D. Brown, “Use of Elliptic Curve Cryptography (ECC) 
Algorithms in Cryptographic Message Syntax (CMS),” Internet RFC 5753 (infor- 
mational), Jan. 2010. 


[RFC5755] S. Farrell, R. Housley, and S. Turner, “An Internet Attribute Certificate 
Profile for Authorization,” Internet RFC 5755, Jan. 2010. 


[RFC5764] D. McGrew and E. Rescorla, “Datagram Transport Layer Security 
(DTLS) Extension to Establish Keys for the Secure Real-Time Transport Protocol 
(SRTP),” Internet RFC 5764, May 2010. 


[RFC5840] K. Grewal, G. Montenegro, and M. Bhatia, “Wrapped Encapsulating 
Security Payload (ESP) for Traffic Visibility,” Internet RFC 5840, Apr. 2010. 


[RFC5857] E. Ertekin, C. Christou, R. Jasani, T. Kivinen, and C. Bormann, “IKEv2 
Extensions to Support Robust Header Compression over IPsec,” Internet RFC 
5857, May 2010. 


[RFC5879] T. Kivinen and D. McDonald, “Heuristics for Detecting ESP-NULL 
Packets,” Internet RFC 5879 (informational), May 2010. 


[RFC5903] D. Fu and J. Solinas, “Elliptic Curve Groups Modulo a Prime (ECP 
Groups) for IKE and IKEv2,” Internet RFC 5903 (informational), June 2010, 


[RFC5933] V. Dolmatov, ed., A. Chuprina, and I. Ustinov, “Use of GOST Signature 
Algorithms in DNSKEY and RRSIG Resource Records for DNSSEC,” Internet 
RFC 5933, July 2010. 


[RFC5996] C. Kaufman, P. Hoffman, Y. Nir, and P. Eronen, “Internet Key 
Exchange Protocol Version 2 (IKEv2),” Internet RFC 5996, Sept. 2010. 


[RFC5998] P. Eronen, H. Tschofenig, and Y. Sheffer, “An Extension for EAP-Only 
Authentication in IKEv2,” Sept. 2010. 


664 #18 Ë 


[RFC6024] R. Reddy and C. Wallace, “Trust Anchor Management Requirements,” 
Internet RFC 6024 (informational), Oct. 2010. 


[RFC6040] B. Briscoe, “Tunnelling of Explicit Congestion Notification,” Internet 
RFC 6040, Nov. 2010. 


[RFC6066] D. Eastlake 3rd, “Transport Layer Security (TLS) Extensions: Exten- 
sion Definitions,” Internet RFC 6066, Jan. 2011. 


[RFC6071] S. Frankel and S. Krishnan, “IP Security (IPsec) and Internet Key 
Exchange (IKE) Document Roadmap,” Internet RFC 6071 (informational), Feb. 
2011. 


[RFC6083] M. Tuexen, R. Seggelmann, and E. Rescorla, “Datagram Transport 
Layer Security (DTLS) for Stream Control Transmission Protocol (SCTP),” Inter- 
net RFC 6083, Jan. 2011. 


[RFC6091] N. Mavrogiannopoulos and D. Gillmor, “Using OpenPGP Keys for 
Transport Layer Security (TLS) Authentication,” Internet RFC 6091 (informa- 
tional), Feb. 2011. 


[RFC6101] A. Freier, P. Karlton, and P. Kocher, “The Secure Socket Layer (SSL) 
Protocol Version 3.0,” Internet RFC 6101, Aug. 2011. 


[RFC6147] M. Bagnulo, A. Sullivan, P. Matthews, and I. van Beijnum, “DN64: 
DNS Extensions for Network Address Translation from IPv6 Clients to IPv4 Serv- 
ers,” Internet RFC 6147, Apr. 2011. 


[RFC6176] S. Turner and S. Polk, “Prohibiting Secure Sockets Layer (SSL) Version 
2.0,” Internet RFC 6176, Mar. 2011. 


[RFC6234] D. Eastlake 3rd and T. Hansen, “US Secure Hash Algorithms (SHA 
and SHA-based HMAC and HKDF),” Internet RFC 6234 (informational), May 
2011. 


[RFC6345] P. Duffy, S. Chakrabarti, R. Cragie, Y. Ohba, ed., and A. Yegin, “Pro- 
tocol for Carrying authentication for Network Access (PANA) Relay Element,” 
Internet RFC 6345, Aug. 2011. 


[RFC6376] D. Crocker, ed., T. Hansen, ed., M. Kucherawy ed., “DomainKeys 
Identified Mail (DKIM) Signatures,” Internet RFC 6376, Sep. 2011. 


[RSA78] R. Rivest, A. Shamir, and L. Adleman, “A Method for Obtaining Digital 
Signatures and Public Key Cryptosystems,” Communications of the ACM, 21(2), 
Feb. 1978. 


[TLD-REPORT] http://stats.research.icann.org/dns/tld_report 
[TLSEXT] http://www.iana.org/assignments/tls-extensiontype-values 
[TLSPARAMS] http://www.iana.org/assignments/tls-parameters 
[TNMOC] The National Museum of Computing, http://www.tnmoc.org 
[TSIGALG] http://www.iana.org/assignments/tsig-algorithm-names 


[TWP07] E. Tews, R. Weinmann, and A. Pyshkin, “Breaking 104 Bit WEP in Less 
than 60 Seconds,” Proc. 8th International Workshop on Information Security Applica- 
tions (Springer, 2007). 


[VENONA] R. L. Benson, National Security Agency Center for Cryptologic His- 
tory, “The VENONA Story,” http://www.nsa.gov/public_info/declass/venona 


ES: THRIMIGEBR, IP? ZAM, BREZE, DNS EA. KE BARI OF 665 


[VK83] V. Voydock and S. Kent, “Security Mechanisms in High-Level Network 
Protocols,” ACM Computing Surveys, 15, June 1983. 


[WY05] X. Wang and H. Yu, “How to Break MD5 and Other Hash Functions,” 
EUROCRYPT, May 2005. 


[X9.62-2005] American National Standards Institute, “Public Key Cryptography 
for the Financial Services Industry: The Elliptic Curve Digital Signature Stan- 
dard (ECDSA),” ANSI X9.62, 2005. 


[Z97] Y. Zheng, “Digital Signcryption or How to Achieve Cost(Signature & 
Encryption) << Cost(Signature) + Cost(Encryption),” Proc. CRYPTO, Lecture 
Notes in Computer Science, Volume 1294 (Springer-Verlag, 1997). 


ACCM 


ACD 


ACFC 


ACK 


ACL 


ADSP 


AEAD 
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AF 


AFTR 


AH 
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AIMD 


ALG 
A-MPDU 


缩 略 语 


第 三 代 合 作 伙 伴 计划 (针对 GSM, W-CDMA, LTE 等 的 蜂窝 标准 制定 组 织 
第 三 代 合 作 伙 伴 计 划 2 (针对 CDMA2000、EV-DO ee 
IPv6 快速 部 署 (一 种 通过 IPv4 网 络 传输 IPv6 流量 的 过 渡 机 制 ， 它 与 6to4 
方法 类 似 ， 但 在 单 播 地 址 分 配 的 基础 上 对 IPv6 前 缀 进行 分 配 ) 

IPv6 到 IPv4 (在 IPv4 隧道 中 传输 IPv6 流量 ， 目 前 已 遇 到 一 些 运 营 挑战 ) 
地 址 (IPv4 )( 在 DNS 资源 记录 中 ， 描 述 一 个 IPv4 地 址 ) 

认证 、 授 权 和 计 费 (与 某 些 访问 协议 相关 的 管理 功能 ， 例 如 RADIUS 与 
Diameter 协议 ) 

地 址 (IPv6 )( 在 DNS 资源 记录 中 ， 描 述 一 个 IPv6 地 址 ) 

适当 字 节 计数 (在 TCP 拥塞 控制 中 ， 一 种 统计 确认 后 的 字 节 数 的 方法 ， 用 
于 代替 执行 CWND 计算 时 的 常数 因子 ; 它 可 以 减轻 由 ACK 延迟 而 引发 的 
窗口 缓慢 增长 问题 ) 

属性 证 书 (一 种 认证 类 型 ， 用 于 包含 某 些 属性 ， 例 如 授权 的 证 书 。 该 证 书 与 
PKC 的 不 同 之 处 在 于 它 不 包含 公 钥 ) 

异步 控制 字符 映射 (在 PPP 中 ， 指 出 需要 被 转 义 的 字 节 ， 以 避免 不 期 望 的 
影响 ) 

自动 冲突 检测 (检测 与 避免 P 地 址 分 配 冲突 的 程序 ) 

地 址 和 控制 字段 压缩 (在 PPP 中 ， 压 缩 地 址 和 控制 字段 以 减少 开销 ) 

确认 (一 种 表明 数据 已 经 成 功 到 达 接 收 端的 提示 ， 适 用 于 协议 栈 的 多 个 
层次 ) 

访问 控制 列表 (一 种 流量 过 滤 规 则 列表 ， 例 如 是 否 人 允许 通过 防火 墙 ) 
作者 域 签名 实现 (一 种 关于 DKM 如 何 使 用 或 部 署 于 特定 域 中 的 策略 状态 ) 
认证 加 密 相 关 的 数据 (对 输入 的 一 部 分 进行 加 密 和 认证 ， 对 男 一 部 分 只 进行 
认证 的 算法 ) 

高 级 加 密 标 准 (美国 目前 使 用 的 新 一 代 加 密 标准 ) 

保证 转发 (一 种 提供 流量 类 优先 级 与 类 间 优 先 次 序 的 PHB) 

地 址 族 转换 路 由 器 (在 DS-Lite 中 ， 一 种 将 少量 IPv4 地 址 分 享 给 多 个 用 户 的 
SPNAT) 

认证 头 部 (可 选 的 IPsec 协议 对 了 P 流量 所 提供 的 认证 服务 ， 包 括 头 部 信息 ， 
但 它 与 NAT 不 兼容 ) 

权威 信息 访问 (X.509 证 书 的 一 种 扩展 ， 它 在 验证 一 个 证 书 时 指明 可 用 的 
资源 ) 

和 式 增加 ， 和 式 减少 (TCP 中 用 于 限制 CWND 的 方法 ， 在 拥塞 度 较 低 时 增 
加 该 数值 ， 在 拥塞 度 较 高 时 减少 该 数值 ， 但 它 并 不 是 标准 的 TCP 算法 ) 

和 式 增加 ， 积 式 减少 (TCP 中 用 于 限制 CWND 的 方法 ， 在 拥塞 度 较 低 时 增 
加 该 数值 ， 在 拥塞 度 较 高 时 将 该 数值 乘 以 小 于 1 的 分 数 ) 

应 用 层 网 关 (一 种 在 应 用 层 完成 协议 转换 任务 的 代理 ,通常 是 软件 ) 

聚合 的 MPDU (包含 多 个 MPDU 的 帧 ， 是 IEEE 802.11n 协议 的 一 部 分 ) 


m g 
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API 
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APSD 
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ARP 


ARQ 
AS 
AS 


ASM 
ASN.1 


AUS 
AUTH 
AXFR 
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BACP 
BAP 
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BITS 
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BPDU 
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聚合 的 MSDU (包含 多 个 MSDU 的 帧 ， 是 IEEE 802.11n 协议 的 一 部 分 ) 
接 入 网 发 现 和 选择 功能 (MoS 的 一 部 分 ， 用 于 指明 影响 网 络 切换 与 网 络 选 择 
的 信息 ) 

无 线 自 组 网 按 需 距离 向 量 路 由 协议 (早期 使 用 距离 向 量 的 无 线 自 组 网 按 需 路 
由 协议 ) 

接 入 点 (802.11 标准 ， 通 常用 于 连接 无 线 和 有 线 网 络 部 分 ) 

应 用 程序 编程 接口 (被 应 用 程序 所 调用 的 函数 ， 一 般 用 于 实现 某 种 功能 ， 例 
如 发 送 与 接收 网 络 流量 ) 

Bane FA IP hk (一 种 使 网 络 节点 在 特定 范围 内 自行 配置 其 IP 地 址 的 机 
w, 通常 应 用 于 IPv4 节点 ) 

自动 省 电 交 付 模式 (周期 地 对 802.11 帧 进行 批 处 理 ， 以 支持 PSM) 

主动 队列 管理 (应 对 流量 动态 变化 的 队列 管理 方法 ,但 不 包括 FCFS/FIFO 
队列 管理 中 典型 的 “丢弃 队 尾 ” 方 法 ) 

地 址 解析 协议 (一 种 应 用 于 链 路 层 之 上 的 协议 ， 负 责 解 决 IPv4 地 址 到 MAC 
层 地 址 的 解析 问题 ， 并 使 用 链 路 层 广 播 地 址 ) 

自动 重复 请 求 (在 推断 信息 丢失 后 进行 的 重新 传输 ) 

认证 服务 器 (安装 有 PANA 协议 ,负责 认证 检验 的 服务 器 ) 

自治 系统 (ISP 之 间 的 路 由 连接 使 用 的 16 位 或 32 位 数字 ， 用 于 标识 网 络 前 
缀 的 集合 与 它们 的 所 有 者 ) 

全 源 组 播 (组 播 的 任何 一 方 都 可 以 发 起 通信 ) 

抽象 语法 标记 第 1 版 (一 种 为 信息 定义 抽象 语法 的 ISO 标准 ,但 没有 相应 
的 编码 格式 ; BER 和 DER 用 于 编码 ASN.1 信息 ) 

应 用 独 有 的 字符 串 (DDDS 算法 的 输入 字符 串 ) 

认证 (49 IKE 一 起 ， 包 含 进 行 发 送 方 认证 所 需 信 息 的 有 效 载荷 ) 

全 区 域 传输 (DNS 区 域 信息 完全 交换 ; 采用 TCP 协议 ) 

桥接 宽带 单元 (DS-Lite 中 的 一 种 路 由 器 ， 在 终止 于 AFTR 的 IPv6 隧道 末端 
封装 IPv4 流量 ， 不 支持 NAT 功能 ) 

带宽 分 配 控 制 协 议 (与 PPP 一 起 , 一 种 用 于 配置 BoD 的 协议 ) 

带宽 分 配 协 议 (在 一 个 MPPP 绑 定 中 ， 一 种 用 于 配置 链 路 的 协议 ) 

广播 与 组 播 服务 控制 器 (在 蜂窝 网 络 中 ， 用 于 管理 组 播 ) 

基本 编码 规则 (一 种 符合 ITU 标准 的 编码 语法 ; 是 ASN.1 的 一 个 子 集 ) 

误 码 率 (每 传输 一 定 比 特 数 时 预期 出 错 的 比特 数 ) 

边界 网 关 协 议 (支持 策略 的 域 间 路 由 协议 ) 

伯克利 因特网 名 字 域 第 9 版 (一 种 实现 域名 服务 器 的 软件 ， 流 行 于 类 UNIX 
系统 ) 

栈 中 碰撞 (在 主机 中 实现 IPsec 协议 的 选项 ) 

线 中 碰撞 (在 网 络 中 实现 IPsec 协议 的 选项 ) 

大 批量 租约 查询 (在 DHCP 中 ,一 种 用 于 传输 当前 租约 信息 的 请 求 /响应 
协议 ) 

按 需 带宽 (动态 调整 可 用 链 路 带宽 的 能 力 ) 

引导 程序 协议 (DHCP 协议 的 前 身 ; 用 于 配置 主机 ) 

网 桥 PDU (由 STP 使 用 的 PDU; 通过 交换 机 与 网 桥 进行 交换 ) 

二 进 制 相 移 键 控 (使 用 两 个 信和 号 相位 调制 二 进 制 数 ) 
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BSD 


BSDP 


BSS 
BTNS 


BU 
CA 


CALIPSO 
CBC 


CBCP 
CCA 
CCITT 
CCM 


CCMP 


CCP 
ccTLD 
CDP 
CERT 
CERT 


CERTREQ 
CGA 
CHAP 


CIA 
CIDR 


CMAC 
CN 
CNAME 
CoA 
CoS 


CoT 


CoTI 


伯克利 软件 套件 (加州 大 学 伯克利 分 校 的 UNIX 版 本 ， 包 括 首 个 广泛 使 用 的 
TCP/ IP 实现 版 本 ) 

引导 服务 器 发 现 协 议 (由 苹果 公司 开发 的 DHCP 扩展 ， 用 于 发 现 一 个 引导 映 
像 服务 器 ) 

基本 服务 集 (IEEE 802.11 术语 ， 包 括 一 个 接 人 点 和 相关 站 点 ) 

“总 比 没有 强 ” 的 安全 (IPsec 的 一 个 选项 ， 使 用 不 包含 完整 PKI 的 证 书 ， 易 
受到 MITM 攻击 ) 

绑 定 更 新 (在 移动 IP 中 ， 建 立 移动 节点 的 转交 地 址 与 家 乡 地 址 之 间 的 映射 ) 
证 书 颁发 机 构 (负责 生成 、 发 行 公 钥 / 私 钥 对 并 签署 和 分 发 已 签名 的 公 钥 与 
证 书 撤销 列表 的 组 织 ) 

通用 体系 结构 标签 IPv6 安全 选项 (IP 数据 包 的 安全 标签 ; 并 未 得 到 广泛 使 用 ) 
密码 块 链 接 (一 种 利用 KOR 运算 来 链接 已 加 密 块 的 加 密 模式 ， 用 于 抵御 重 
排 攻 击 ) 

回 叫 控制 协议 (在 PPP 中 建立 一 个 回 叫 号 码 ) 

空闲 信道 评估 (802.11 协议 中 物理 层 的 一 种 机 制 ， 用 于 检测 信道 的 可 用 性 ) 
国际 电报 电话 咨询 委员 会 (现在 的 国际 电信 联盟 ) 

带 CBC 消息 认证 码 的 计数 器 模式 〈 一 种 认证 加 密 模 式 ， 结 合 了 CTR 模式 加 
密 和 CBC-MAC) 

带 CBC-MAC 协议 的 计数 器 模式 (用 于 WPA2 加 密 ; 源 自 IEEE 802.11i 协 
议 ; 是 WPA 的 继承 者 ) 

压缩 控制 协议 (在 PPP 中 ， 建 立 使 用 的 压缩 方法 ) 

国家 代码 顶级 域名 (基于 ISO3661-2 的 国家 代码 列表 的 顶级 域名 ) 

CRL 分 发 点 (一 个 能 够 获得 CA 目前 的 证 书 撤销 列表 的 位 置 ) 

证 书 (IKE 中 包含 证 书 的 有 效 载荷 ) 

计算 机 应 急 响 应 组 (负责 处 理 电脑 安全 事故 的 小 组 ， 包 括 卡 内 基 ' 梅 隆 大 学 
的 首 个 CERT 与 美国 政府 的 US-CERT) 

证 书 请 求 (IKE 中 的 有 效 载荷 ， 指 明 可 接收 证 书 的 信任 基准 ) 

密码 生成 地 址 (利用 基于 公 钥 的 散 列 算法 生成 的 地 址 ) 

查询 - 握手 认证 协议 (协议 要 求 每 一 次 查询 都 对 应 一 个 响应 ; 易 受 到 中 间 人 
攻击 ) 

机 密 性 、 完 整 性 和 可 用 性 (信息 安全 的 原则 ; 又 称 “CIA 三 元 组 ”) 





- 无 类 域 间 路 由 (一 种 解决 地 址 ROAD 问题 的 步骤 ， 通 过 移 除 IP 地 址 的 类 边 


界 实现 ， 但 要 求 域 间 路 由 使 用 一 个 关联 的 CIDR 掩 码 ) 

基于 密码 的 消息 认证 码 (一 种 将 加 密 算法 作为 消息 认证 码 的 特殊 方法 ) 

通信 节点 (在 移动 IP 场景 中 一 个 移动 节点 的 会 话 端 ) 

规范 名 称 (DNS 资源 记录 为 某 个 域名 所 提供 的 别名 ) 

转交 地 址 (在 访问 非 家 乡 网 络 时 ， 分 配给 移动 节点 的 地 址 ) 

服务 类 (一 种 用 于 描述 针对 不 同类 别 流量 的 不 同 服 务 的 通用 术语 ;是 一 个 由 
差异 化 服务 体系 结构 所 支撑 的 概念 ) 

转交 测试 (在 一 次 资源 记录 检测 中 ， 消 息 经 由 转交 地 址 发 送 给 移动 节点 ,使 
移动 节点 获得 用 于 保障 绑 定 更 新 安全 的 一 部 分 密 钥 ) 

转交 测试 初始 化 (在 一 次 资源 记录 检测 中 ,触发 接收 者 发 送 一 条 转交 测试 
消息 ) 


CSMA/CA 
CSMA/CD 
CSPRNG 
CSRG 
CTCP 
CTR 

CTS 

CW 
CWND 
CWR 


CWV 


DAD 


DCCP 


DCF 
DDDS 


DDoS 
DER 


DES 


DF 


DH 


DHCP 


DIFS 
DIX 
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MaR (IKE 中 用 于 传输 配置 参数 的 可 扩展 结构 ) 

认证 业务 规则 (认证 中 心 关于 证 书 如 何 发 行 与 管理 的 策略 说 明 ) 

循环 元 余 校 验 (用 于 检查 位 错误 的 数学 函数 ) 

证 书 撤销 列表 (由 CA 发 行 的 无 效 证 书 列表 ) 

密码 套件 (TLS 中 可 供 选 择 的 加 密 算法 套件 ) 

类 选择 器 (IP 中 的 DSCP 值 ， 用 于 兼容 已 过 时 的 “服务 类 型 ”和 “流量 类 
型 ”， 通 过 设置 P 头 字段 中 的 相关 位 实现 ) 

带 冲突 (或 称 碰撞 ) 避免 的 载波 侦 听 多 路 访问 (Wi-Fi 的 MAC 协议 ， 包 括 链 
路 空闲 时 发 送 与 链 路 占用 时 退 避 ) 

带 冲突 (或 称 碰撞 ) 检测 的 载波 侦 听 多 路 访问 ( Ethernet 的 典型 MAC PMX, 
包括 链 路 空闲 时 发 送 与 检测 到 冲突 时 退 避 ) 

加 密 性 强 的 伪 随 机 数 发 生 器 〈 一 个 适用 于 加 密 的 伪 随 机 数 产生 器 ) 

计算 机 系统 研究 组 (加州 大 学 伯克利 分 校 的 BSD UNIX 开发 者 ) 

复合 TCP (现代 Windows 系统 中 实现 的 一 种 “可 扩展 ”的 TCP 变 体 ， 结 合 
了 基于 延迟 与 丢 包 的 窗口 调整 算法 ) 

计数 器 (一 种 加 密 模式 ， 在 并 行 地 对 多 个 块 进行 加 密 或 解密 时 使 用 一 个 计数 
器 的 值 来 维护 被 加 密 块 间 的 顺序 ) 

清除 发 送 (授权 RTS 发 送 者 进行 发 送 的 消息 ) 

竞争 窗口 (802.11 站 点 在 DCF 状态 时 等 待 发 送 的 时 间 范 围 ) 

拥塞 窗口 (TCP 协议 关于 发 送 者 窗口 大 小 的 限制 ， 用 于 避免 或 减少 拥塞 ) 
拥塞 窗口 减 小 (在 TCP 协议 中 ， 减 少 发 送 者 可 用 的 窗口 大 小 ) 

拥塞 窗口 校 验 (在 TCP 协议 中 ， 一 种 在 需要 时 检查 和 更 新 拥塞 窗口 当前 数 
值 的 方法 ) 

重复 地 址 检测 〈 在 IPv6 协议 的 邻居 发 现 与 无 状态 自动 配置 中 ， 重复 地 址 检 
测 通 过 向 指定 地 址 发 送 一 个 邻居 请 求 消息 ， 协 助 确定 一 个 Pv6 候选 地 址 是 
否 已 经 使 用 ) | 

数据 报 拥塞 控制 协议 〈 一 种 为 应 用 程序 提供 尽力 而 为 的 数据 报 服务 并 控制 拥 
塞 的 协议 ) 

分 布 式 协调 功能 (CSMA/CA 的 介质 访问 控制 方法 ， 用 于 802.11 网 络 ) 
动态 委托 发 现 系 统 (一 种 支持 字符 串 到 数据 延迟 绑 定 的 方法 ; 通常 与 DNS 
一 起 用 于 发 现 各 种 应 用 协议 的 服务 器 ) 

分 布 式 拒绝 服务 〈 一 种 基于 网 络 的 攻击 ， 通 常 由 僵尸 网 络 发 起 ) 

唯一 编码 规则 (一 种 ITU 标准 编码 语法 ; ASN.1 基本 编码 规则 的 一 个 子 集 ， 
要 求 对 每 个 值 都 有 唯一 的 标识 ) 

数据 加 密 标准 (美国 使 用 的 一 种 老 的 对 称 数据 加 密 标准 ， 采 用 56 位 密 钥 ) 
不 分 片 (一 个 表示 不 执行 分 片 的 IPv4 头 部 位 ; 对 PMTUD 重要 ) 
Diffie-Hellman (在 存在 窃听 者 的 情况 下 ， 在 通信 双方 之 间 建 立 一 个 安全 值 
的 数学 协议 ) 

动态 主机 配置 协议 (从 BOOTP 演变 而 来 ;使 用 配置 信息 来 建立 系统 ， 例 如 
租用 的 IP 地 址 、 默 认 路 由 器 以 及 DNS 服务 器 的 IP 地 址 ) 

DCF 帧 间 间 隔 (802.11 DCF 帧 之 间 的 时 间 ) 

代表 Digital, Intel, Xorex (以 早期 以 太 网 标准 制定 者 命名 的 标准 ) 
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DKIM 


DLNA 


DMZ 


DNA 
DNAME 


DNS 
DNS64 


DNSKEY 
DNSSEC 
DNSSL 
DOI 

DoS 

DPD 
DPV 

DS 

DS 

DS 


DSA 
DSACK 


DSCP 
DSL 
DS-Lite 


DSRK 


DSS 
DSUSRK 
DTLS 
DUID 
DUP 

EAP 
EAP-FAST 


EAPOL 
EAP-TTLS 


m 略 语 


域名 密 钥 识别 邮件 〈 一 种 将 电子 邮件 发 送 域 与 相关 的 原始 邮件 服务 器 加 密 绑 
定 的 协议 ) 

数字 生活 网 络 联盟 (一 个 致力 于 消费 类 媒体 设备 的 互 操作 性 与 协议 的 工业 组 
织 ， 例 如 电视 、DVD 播放 机 、 录 像 机 等 ) 

非 军事 区 (组 织 内 部 防火 墙 之 外 的 一 个 网 段 ， 通 常用 于 服务 于 客户 或 公众 的 
主机 ) 

检测 网 络 附件 (检测 连接 状态 变化 的 程序 ) 

非 终 端 名 称 重 定向 (使 用 一 个 DNS 子 树 的 别名 机 制 来 支持 生成 多 个 
CNAME 记录 的 DNS 资源 记录 ) 

域名 系统 (域名 与 IP 地址 之 间 的 映射 ， 也 包括 一 些 其 他 信息 ) 

IPv4/IPv6 的 DNS 转换 (一 种 IPv4/IPv6 的 共存 机 制 ， 将 IPv4 的 DNS 信息 
转换 为 IPv6 可 用 的 DNS 信息 ) 

DNS 密 钥 (DNSSEC 用 来 保存 公 钥 的 DNS 资源 记录 ) 

DNS 安全 (DNS 数据 的 来 源 认证 及 完整 性 保证 ) 

DNS 搜索 列表 (与 RA 一 起 使 用 ， 指 明 默 认 域 的 扩展 列表 ) 

数字 对 象 标 识 符 (一 种 命名 内 容 对 象 并 将 其 与 信息 记录 关联 的 方法 ) 

拒绝 服务 (一 种 耗 尽 资源 的 攻击 类 型 ) 

委托 路 径 发 现 (一 种 委托 收集 验证 证 书 路 径 所 需 的 所 有 信息 的 方法 ) 
委托 路 径 验 证 (一 种 委托 整个 证 书 验证 过 程 的 方法 ) 

授权 签名 者 (在 DNS 中 DNSSEC 使 用 的 用 来 保证 委托 安全 的 资源 记录 ) 

区 分 服务 (在 I 了 P 流量 管 理 中 ， 为 流量 传输 提供 性 能 区 分 的 方法 ) 
分 布 式 服务 (在 802.11 局 域 网 中 ， 用 于 互联 接 入 点 的 网 络 或 服务 ,通常 是 
一 个 有 线 的 802.3 网 络 或 以 太 网 ) 

数字 签名 算法 (一 种 基于 离散 对 数 问题 的 数字 签名 生成 算法 ) 

重复 选择 确认 (TCP 协议 选择 确认 的 一 个 变种 ， 包 括 对 已 接收 的 重复 报 文 段 
的 描述 ) 

区 分 服务 代码 点 (在 数据 包 中 指明 某 种 特定 转发 行为 的 字段 ) 

数字 用 户 线 (普通 老式 电话 服务 线路 上 的 专用 宽带 数据 链 路 ) 

双 栈 精简 版 (一 种 IPv6 服务 提供 商 使 用 的 框架 ,结合 了 IPv4-in-IPv6 隧道 
NAT 技术， 提供 双 栈 或 单 栈 客户 机 的 访问 ) 

特定 域 根 密 钥 ( 源 于 EMSK 的 密 钥 ， 由 属于 某 个 权威 管理 机 构 的 系统 
使 用 ) 

数字 签名 标准 (一 种 基于 DSA 的 美国 数字 签名 标准 ) 

特定 域 USRK (一 种 结合 USRK 与 DSRK 使 用 策略 的 密 钥 ) 

数据 报 TLS (与 数据 报 协议 如 UDP 一 同 使 用 的 TLS 变种 ) 

DHCP 唯一 标识 符 (DHCP 请 求 中 与 响应 匹配 的 数值 ) 

复制 (用 于 多 个 上 下 文中 ,例如 DUP, ACK) 

可 扩展 身份 认证 协议 (支持 各 种 身份 认证 方法 的 框架 ) 

基于 安全 隧道 的 EAP 灵活 认证 (Cisco 的 EAP 方法 ,使 用 TLS 取代 其 早期 
的 LEAP EAP 方法 ) 

基于 局 域 网 的 EAP (例如 ，IEEE 802.1X 中 以 太 网 上 的 EAP) 

EAP 隧道 传输 层 安 全 (一 种 基于 早期 TLS EAP 的 EAP 方法, 但 只 要 求 服务 
器 端 获得 证 书 ) 
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ESP 
ESSID 
EUI 
EV 
EV-DO 


FACK 


FCFS 
FCS 
FEC 
FIFO 
FIN 
FMIP 
FQDN 
F-RTO 


模 2 RARA EF AAA, ERRE, E Galois 域 GF 
(EIE) 

纠 错 码 (添加 到 信息 中 用 于 纠正 错误 的 元 余 比 特 ) 

椭圆 曲线 数字 签名 算法 (一 种 使 用 ECC 的 DSA 变种 ) 

ECN 回 显 (在 采用 ECN 的 TCP 中 ,反馈 给 TCP 发 送 方 的 ECN 信息 ) 

显 式 拥塞 通知 (指出 拥塞 的 直接 方法 ,例如 通过 路 由 器 到 主机 ) 

模 素数 的 椭圆 曲线 组 (基于 椭圆 曲线 的 组 ， 在 抽象 代数 中 ， 一 个 素数 P， 位 
于 Galois 域 G(P) 上 ) 

支持 ECN 的 传输 (能 解释 ECN 标识 符 的 传输 协议 ) 

增强 型 分 布 式 信道 访问 (支持 Qos 的 802.11 协调 功能 ， 源 自 802.11e 协议 ) 
DNS 扩展 机 制 (版 本 0) (一 种 扩展 DNS 资源 记录 的 方法 ， 版 本 0， 供 
DNSSEC 使 用 ) 

加 速 转发 (在 未 出 现 拥塞 时 ，PHB 提供 的 一 个 服务 类 ， 通 常 表示 其 已 处 于 最 
高 优先 级 ， 并 要 求 访 问 控制 以 避免 超额 ) 

扩展 标志 选项 (在 DACP 中 ， 用 于 表明 附加 选项 是 否 存在 ) 

扩展 帧 间 间 隔 (在 802.11 DCF 中 ， 当 接收 到 无 法 识别 的 帧 时 所 使 用 的 扩展 
帧 间 间 隔 ) 

扩展 MSK (由 EAP 在 密 钥 导 出 后 所 生成 的 一 个 MSK 之 外 的 辅助 密 钥 ) 
E.164 到 URI 的 DDDS 应 用 (一 种 特殊 DDDS， 用 于 E.164 电话 格式 地 址 到 
URI 的 映射 ) 

执行 点 (在 PANA 中 访问 控制 策略 的 执行 位 置 ) 

平等 调制 (对 不 同 的 数据 流 同 时 使 用 相同 的 调制 方案 ) 

合格 率 估计 (TCP Westwood+ 的 一 部 分 ; 用 于 估算 一 个 连接 能 够 使 用 的 带 
宽 数 量 ) 

EAP 重新 认证 协议 (一 种 在 重新 建立 身份 认证 时 用 于 减少 延迟 的 EAP 扩展 ) 
扩展 序列 号 (在 IPsec 中 定义 的 一 个 64 位 的 扩展 序列 号 ， 用 于 抵御 重 放 攻 
击 ; 正常 的 序列 号 是 32 位 ) 

封装 安全 载荷 (要 求 IPsec 协议 提供 对 流量 的 认证 与 /或 保密 ) 

扩展 服务 集 标识 符 (IEEE 802.11 网 络 名 称 ) 

扩展 唯一 标识 符 (IEEE 定义 的 MAC 层 地 址 前 级 的 格式 ， 由 OUI 扩展 而 来 ) 
扩展 验证 (一 种 在 发 行 前 执行 增强 型 身份 认证 的 证 书 形式 ) 

演化 、 数 据 优 化 (或 唯一 ) ( 3GPP2 无 线 宽带 标准 ，CDMA2000 的 一 个 演化 
版 本 ) 

转发 确认 (在 TCP 中 ， 比 已 知 到 达 接 收 方 的 最 大 序列 号 大 1 ; 由 SACK 
确定 ) 

先 到 先 服务 ( 按 顺 序 服 务 的 调度 原则 ; 无 优先 ) 

帧 校 验 序列 (用 于 检查 位 错误 的 数据 位 的 通称 ) 

转发 纠 错 ( 使 用 元 余 位 来 纠正 数据 位 中 的 错误 ) 

先进 先 出 ( 按 顺 序 服务 的 队列 管理 原则 ; 无 重新 排列 ) 

完成 (在 发 送 的 TCP 连接 中 ，TCP 头 部 的 最 后 一 个 段 标识 ) 

移动 IP 快速 切换 (对 MIPv6 早期 关于 切换 部 分 的 修改 ) 

完全 限定 域名 (一 个 包括 全 域 扩展 的 域名 ) 

转发 RTO (TCP 协议 中 的 一 种 方法 ， 用 于 判断 一 次 重 传 是 否 伪 造 ， 以 及 避 
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FTP 


GCKS 


GCM 


GDOI 
GENA 


GI 
GKM 


GMAC 
GMI 


GMRP 
GPAD 
GRE 
GSA 
GSAKMP 


GSPD 
GSS-API 


gTLD 
GVRP 
HA 
HAIO 
HCF 
HDLC 


HELD 
HIP 
HMAC 
HoA 
HOPOPT 
HoT 


HoTI 
HSPA 
HSTCP 


45 Be Ë 


免 不 必要 的 重 传 是 否 带 来 好 处 ) 

文件 传输 协议 (一 种 基于 TCP 的 文件 传输 协议 ， 使 用 独立 的 控制 与 数据 
连接 ) 

组 控制 器 / 密 钥 服 务 器 (在 IPsec 中 ， 与 GKM 一 同 使 用 ; J GSA 持 有 并 发 
HRH) 

Galois/ 计数 器 模式 (一 种 认证 加 密 模式 ， 结 合 了 CRT 加 密 模式 与 Galois 认 
证 模式 ) 

组 解释 域 (在 IPsec 中 ， 一 组 基于 ISAKMP F IKE 的 密 钥 管理 协议 ) 

通用 事件 通知 结构 (一 种 基于 XML 的 通知 框架 ， 在 组 播 UDP 上 使 用 HTTP 
协议 ; 与 UPnP 一 同 使 用 ) 

保护 间隔 (在 通信 工程 中 ， 用 于 避免 符号 间 干 扰 的 传输 之 间 的 最 短 时 间 间 隔 ) 
组 密 钥 管理 (在 IPsec 中 ， 一 种 基于 组 来 分 发 密 钥 材 料 的 方法 ， 以 支持 组 安 
全 关联 的 形成 ) 

Galois 消息 认证 码 (一 种 对 于 GCM 的 唯一 认证 变种 ) 

组 成 员 区 间 (E IGMP 和 MLD 中 ,组 播 路 由 器 在 确定 没有 特定 的 源 或 没有 
更 多 的 组 成 员 之 前 需要 等 待 的 时 间 ; 设置 为 QRV*QI+QRI) 
通用 组 播 注 册 协 议 (已 被 MMRP 取代 ) 

组 PAD (与 IPsec 一 起 使 用 ,包含 所 有 GCKS 实体 认证 数据 的 数据 库 抽象 ) 
通用 路 由 封装 (E IP 数据 报 中 的 通用 封装 ) 

组 安全 关联 (在 IPsec 中 ， 使 用 组 播 协议 在 组 成 员 之 间 建 立 的 安全 关联 ) 

组 安全 关联 密 钥 管理 协议 (一 个 框架 ， 用 于 创建 具有 共同 加 密 信 息 的 组 ， 支 
持 分 发 策略 、 执 行 访问 控制 、 生 成 组 密 钥 以 及 根据 组 的 动态 变化 进行 恢复 ) 
组 SPD (在 IPsec 中 ， 能 够 维持 SA 与 GSA 信息 的 SPD) 

通用 安全 服务 API (一 个 能 够 访问 各 种 安全 服务 的 API， 例 如 身份 认证 、 保 
密 等 ; 通常 与 Kerberos 认证 系统 一 同 使 用 ) 

通用 顶级 域名 (一 种 顶级 域名 ,例如 COM、EDU、MIL， 不 基于 国家 代码 ) 
通用 属性 注册 协议 (已 被 MRP 取代 ) 

家 乡 代 理 (能 够 为 移动 节点 提供 MIP 服务 的 系统 ) 

家 乡 代 理 信息 选项 (在 ICMPv6 中 ,支持 MIPv6 标识 一 个 HA 地 址 的 选项 ) 
混合 协调 功能 (同时 支持 优先 级 与 基于 竞争 的 802.11 信道 访问 的 协调 功能 ) 
高 级 数据 链 路 控制 (一 种 流行 的 ISO 数据 链 路 协议 标准 ， 是 大 多 数 流行 的 
PPP 变种 的 基础 ) 

启用 HTTP 的 位 置 投递 (一 种 通过 HTTP/TCP/IP 分 发 LCI 的 协议 ) 

主机 标识 协议 (一 种 致力 于 移动 性 与 安全 性 的 研究 协议 框架 ) 

基于 散 列 的 消息 认证 码 (一 种 将 散 列 算法 作为 MAC 的 特殊 方法 ) 

家 乡 地 址 (在 MIP 中 ， 一 个 来 自 于 移动 节点 家 乡 网 络 的 地 址 ) 

IPv6 逐 跳 选项 (一 个 IPv6 选项 类 型 ， 适 用 于 路 径 上 的 每 一 跳 步 ) 

家 乡 测试 (在 一 次 资源 记录 检查 中 ， 发 送 给 移动 节点 的 消息 经 由 家 乡 代理 使 
得 移动 节点 获得 一 部 分 用 于 安全 绑 定 更 新 的 密 钥 ) 

家 乡 测试 初始 化 (在 一 次 资源 记录 检查 中 ， 触 发 接收 者 发 送 一 条 家 乡 测试 消息 ) 
高 速 分 组 接 入 ( 3GPP 无 线 宽带 标准 ; WCDMA 的 一 个 演化 版 本 ) 

高 速 TCP (一 个 “可 扩展 的 ”TCP 变种 ，CWND 能 够 部 分 地 基于 当前 值 进 
行 调整 ， 以 便 在 大 容量 环境 中 更 高 效 地 工作 ) 
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HT 
HTML 
HTTP 
HTTPMU 


HTTPS 
HWRP 
IA 

IAB 


IAID 
IANA 
IBSS 
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高 吞吐 量 (更 高 速度 ， 与 IEEE 802.11n 标准 相关 ) 

超 文本 标记 语言 (WWW 的 基本 语言 ) 

超 文 本 传输 协议 (WWW 的 主要 协议 ; 经 常用 于 传输 HTML) 

使 用 UDP 的 HTTP (一 种 使 用 组 播 寻 址 在 UDP 上 传输 HTTP 流量 的 方法 ; 
用 于 在 UPnP 中 传输 SSDP 消息 ) 

基于 SSL/TLS 的 HTTP (WWW 安全 交换 标准 ) 

混合 无 线路 由 协议 (为 IEEE 802.11s 设计 的 路 由 协议 ) 

身份 关联 (在 DHCP 中 ， 一 个 地 址 集合 ) 

Internet 体系 结构 委员 会 (IETF 的 一 个 管理 机 构 ， 负 责 监督 体系 结构 以 及 联 
络 其 他 标准 制定 组 织 ) 

身份 关联 标识 符 (在 DHCP 中 ， 与 某 个 特定 IA 关联 的 标识 符 ) 

Internet 号 码 分 配 机 构 (维护 协议 编号 与 字段 值 ) 

独立 基本 服务 集 ( 802.11 ad-hoc 网 络 ) 

Internet 名 称 和 号 码 分 配 机 构 (域名 与 相关 策略 的 非 营利 性 管理 机 构 ) 
交互 式 连接 建立 (一 个 执行 NAT 穿越 的 框架 ， 包 括 直接 连接 尝试 、STUN 
以 及 TURN， 能 够 在 现存 NAT 的 环境 中 进行 通信 ) 

Internet 控制 报 文 协议 (一 种 信息 与 错误 报告 协议 ， 被 视 为 IP 协议 的 一 部 分 ) 
Internet 连接 共享 (NAT 的 替代 名 称 ; 用 于 Microsoft Windows) 944 
完整 性 校 验 值 (用 于 检查 一 条 消息 完整 性 的 数值 ， 例 如 加 密 散 列 ) 

标识 符 (TE IKE 中 ， 表 明 发 送 方 身份 的 载荷 ) 

国际 化 域名 GE ASCI 字符 编码 的 域名 ) 

电气 与 电子 工程 师 学 会 ( 链 路 层 协议 以 及 更 多 协议 的 标准 制定 组 织 ) 

Internet 工程 指导 组 (IETF 的 管理 机 构 ， 具 有 RFC 官方 审批 权力 ) 

Internet 工程 任务 组 (Internet 标准 的 标准 制定 组 织 ) 

Internet 网 关 设 备 / 发 现 与 控制 (一 种 UPnP 协议 ， 用 于 发 现 和 配置 网 关 设 
备 ， 例 如 家 乡 NAT) 

Internet 组 消息 协议 (一 种 管理 IPv4 组 播 组 的 协议 ， 用 于 路 由 器 与 终端 主机 ) 
Internet 头 部 长 度 (IPv4 头 部 的 字段 ， 以 32 位 字 为 单位 指明 头 部 长 度 ) 
接口 标识 符 (基于 MAC 地 址 的 数字 标识 符 ; 在 选择 IPv6 地 址 时 使 用 ,但 是 
不 能 在 隐私 扩展 生效 时 使 用 ) 

Internet 密 钥 交换 ( IPsec 的 一 部 分 ; 一 种 动态 建立 安全 关联 的 协议 ,包括 密 
钥 与 操作 参数 ) 

Internet 消息 访问 协议 〈 用 于 获取 电子 邮件 头 部 和 来 自 服务 器 的 消息 ) 
SSL/TLS 上 的 IMAP (一 种 访问 电子 邮件 的 安全 协议 ， 被 大 多 数 的 电子 邮件 
程序 支持 ) 

Internet (在 DNS 中 ， 标 识 Internet 信息 的 类 名 ) 

反 向 邻居 发 现 (为 IPv6 提供 类 似 RARP 的 功能 ) 

Internet 协议 (标准 的 尽力 而 为 的 Internet 包 协 议 ， 通 过 采用 一 种 共同 的 抽象 
数据 报 而 适用 于 任何 链 路 层 网 络 ) 

IP 控制 协议 (在 PPP 中 ,一 种 用 于 配置 IPv4 网 络 链 路 的 NCP) 

包间 距 (MAC 协议 中 的 帧 之 间 的 最 小 间距 ) 

IP 安全 (一 种 针对 IP 流量 安全 的 协议 ,包括 IKE, AH 和 ESP 协议 ) 

IPv6 控制 协议 (在 PPP 中 ,一 种 用 于 配置 IPv6 网 络 链 路 的 NCP)- 945 
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Internet 注册 信息 服务 (包含 有 关 地 址 范围 、 关 联 的 AS 号 码 、 联 系 信 息 和 
域名 服务 器 的 数据 库 ) 

Internet 研究 任务 组 (通过 IAB 隶属 于 IETF 的 研究 组 ) 

Internet 安全 关联 和 密 钥 管理 协议 (E IPsec 中 ， 比 IKE 更 早 的 安全 关联 建 
立 协议 ) 

站 内 自动 隧道 寻 址 协议 (一 种 Microsoft 支持 的 从 IPv6 到 IPv4 自动 转换 的 
隧道 技术 ) 

综合 业务 数字 网 (结合 电路 / 分 组 交换 的 数据 服务 ) 

中 间 系 统 到 中 间 系 统 (ISO 链 路 状态 路 由 协议 ) 

思科 交换 链 路 内 协议 (思科 在 交换 机 之 间 保 持 VLAN 信息 的 协议 ) 

工业 、 科 学 和 医疗 (世界 上 许多 地 区 免 许可 证 的 频段 ， 为 Wi-Fi 所 用 ) 

初始 序列 号 (在 TCP 中 ， 用 于 一 次 连接 的 首 个 序列 号 ; 分 配给 SYN) 

国际 标准 化 组 织 (一 个 标准 制定 组 织 ， 负 责 定义 一 些 曾 经 被 认为 可 用 于 替代 
TCP/P 的 协议 和 编码 ) 

Internet 协会 (一 个 非 营利 性 组 织 ， 是 Internet 标准 的 领导 者 ) 

Internet 服务 提供 商 (一 个 实体 ， 通常 是 一 个 企业 ， 负 责 分 配 地 址 、 提 供 
DNS 与 路 由 服务 ， 以 及 协调 与 其 他 ISP 的 工作 ) 

国际 电信 联盟 (无 线 电 和 电话 标准 的 标准 制定 组 织 ) 

ITU 的 电信 标准 化 部 门 (原先 的 CCITT; ITU 的 三 个 “部 门 ”之 一 ， 负 责 标 
准 或 “建议 ”， 例 如 ASN.1, X.25, DSL) 

初始 窗口 (在 TCP 中 ，CWND 的 初始 值 ) 

增 量 区 域 传送 (DNS 区 域 信 息 的 增 量 交 换 ， 使 用 TCP) 

密 钥 交换 (与 IKE 一 同 使 用 ， 用 于 建立 密 钥 的 有 效 载荷 ;通常 使 用 DH) 

密 钥 签名 密 钥 (DNSSEC 中 用 于 签名 其 他 密 钥 的 密 钥 ; 通常 由 SEP 位 设置 ) 
第 2 层 隧 道 协议 (IETF 标准 的 链 路 层 隧道 协议 ) 

链 路 汇聚 控制 协议 (IEEE 802.1AX 中 用 于 管理 链 路 汇聚 的 部 分 ) 
链 路 汇聚 组 〈 一 组 链 路 共同 形成 一 条 虚拟 的 更 高 性 能 链 路 ) 

局 域 网 ( 较 小 的 地 理 区 域内 的 网 络 ， 例 如 一 个 站 点 、 办 公 室 或 家 庭 ) 
线性 同 余 发 生 器 (一 个 流行 的 确定 性 类 型 的 PRNG， 但 不 是 CSPRNG) 

位 置 配 置信 息 (表明 在 所 属 系统 中 的 地 理 或 城市 的 位 置 数 据 ) 

逻辑 信道 标识 符 (在 电路 交换 中 ， 一 条 虚 电 路 的 标识 符 ) 

逻辑 信道 号 (在 电路 交换 中 ， 一 条 虚 电路 的 编号 ) 

链 路 控制 协议 (在 PPP 中 ， 用 于 建立 一 条 链 路 ) 

轻 量 级 目录 访问 协议 (一 个 基于 ISO X.500 DAP 协议 的 查询 协议 ) 

轻 量 级 DHCP PRE (允许 将 第 2 层 设 备 作为 DHCP 中 继 代理 的 机 制 ) 
轻 量 级 扩展 验证 协议 (Cisco 使 用 WEP 或 TKIP 密 钥 的 EAP 方 法 ,目前 已 
证 明 其 具有 脆弱 性 ) 

链 路 层 地 址 (在 FMIPv6 中 ， 一 个 标识 链 路 层 地 址 的 移动 头 部 选项 ) 
逻辑 链 路 控制 (MAC 层 中 与 链 路 控制 相关 的 子 层 ) 

链 路 本 地 组 播 名 称 解 析 (在 链 路 上 使 用 的 DNS 的 一 个 组 播 变种 ， 与 DNS 相 
比 可 以 运行 在 不 同 的 端口 上 ; 用 于 本 地 服务 与 节点 发 现 ) 

最 后 成 员 查询 间隔 (在 IGMP 和 MLD 中 ， 特 定 组 查询 消息 间 的 时 间 间 隔 ) 
最 后 成 员 查 询 时 间 (在 IGMP 和 MLD 中 ， 发 送 最 后 一 个 成 员 查 询 消 息 与 可 
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能 的 传输 所 花费 的 总 时 间 ; 表示 “离开 延迟 ”) 

本 地 网 络 保护 (建议 用 于 IPv6 部 署 ， 使 其 不 再 需要 NAT 的 技术 集合 ) 

位 置 到 服务 转换 〈 一 种 提供 基于 位 置 服务 的 框架 ， 例 如 指示 最 近 的 医院 ) 

链 路 质量 报告 (在 PPP 中 ， 关 于 链 路 质量 的 测量 报告 ， 包 括 接收 、 发 送 以 及 
因 错 误 而 被 拒绝 接收 的 数据 包 数 量 ) 947 
长 期 演化 ( 3GPP 无 线 宽带 标准 ; HSPA 的 一 个 演化 版 本 ) 

轻 量 级 MLD (具有 更 简单 的 加 入 /离开 语义 的 MLD 变种 ) 

介质 访问 控制 (对 一 个 共享 网 络 介质 的 访问 控制 ; 通常 作为 链 路 层 协议 的 一 
部 分 ) 

消息 认证 码 (一 个 用 于 协助 验证 消息 完整 性 的 数学 函数 ) 

城 域 网 (一 个 覆盖 中 等 地 理 范围 的 网 络 ， 例 如 一 个 城市 或 地 区 ) 
调制 和 编码 方案 (调制 与 编码 的 组 合 ，802.11n 中 有 很 多 可 用 的 组 合 ) 

消息 摘要 算法 (一 种 数学 函数 ， 能 够 为 一 条 较 长 的 消息 提供 一 个 较 短 的 数字 
“指纹 ”) 

组 播 DNS (由 Apple 公司 开发 的 域名 服务 的 本 地 变种 ) 

介质 无 关切 换 (支持 在 异 构 网 络 之 间 切 换 网 络 连接 点 的 机 制 ; IEEE 802.21 
标准 涵盖 的 MIH 包括 802.3, 802.11, 802.15, 802.16, 3GPP 和 3GPP2 网 
络 类 型 ) 

介质 无 关 接口 (在 硬件 中 ，MAC 层 实现 与 PHY 层 实 现 之 间 的 接口 ， 独 立 于 
PHY 层 本 身 ) 

多 用 途 Internet 邮件 扩展 (在 电子 邮件 中 标记 和 编码 各 种 对 象 类 型 的 方法 ) 
多 输入 多 输出 (使 用 多 个 天 线 提供 性 能 优 于 单个 天 线 系统 的 无 线 天 线 方案 ， 
但 同时 也 要 求 更 复杂 的 信号 处 理 ) 

移动 IP OP 寻 址 与 路 由 扩展 ， 支 持 地 址 不 变 的 网 络 连接 点 的 移动 ) 

中 间 人 攻击 (一 种 典型 的 MSM 攻击 类 型 ,通过 “插入 者 ”来 实现 ) 

组 播 侦 听 者 发 现 (IPv6 路 由 器 用 于 发 现 链 路 上 的 组 播 接收 者 的 协议 ; 提供 了 
与 IPv4 的 IGMP 类 似 的 功能 ) 

多 级 优先 与 抢占 (用 于 优先 呼叫 的 电话 方案 ,例如 军事 用 途 ) 

多 MAC 注册 协议 (MRP 协议 的 一 部 分 ， 用 于 注册 组 播 参 与 者 ) 

移动 节点 (MIP 场景 中 的 移动 节点 ) 948 
IKE 的 移动 版 本 (IKE 的 增强 版 本 ， 以 支持 移动 和 地 址 信息 的 改变 ) 

模 指 数组 (基于 模 运 算 的 组 ， 在 抽象 代数 意义 上 ， 与 密 钥 建立 协议 一 同 
使 用 ) 

移动 服务 (IEEE 802.21 标准 中 支持 介质 无 关切 换 服 务 的 部 分 ) 

Mesh 点 (在 IEEE 802.11s 中 以 Mesh 方式 进行 配置 的 节点 名 称 ) 

多 链 路 PPP (在 多 条 链 路 上 同时 使 用 PPP) 

MAC 协议 数据 单元 ( 802.11 标准 中 所 使 用 的 帧 的 名 称 ) 

曼彻斯特 相位 编码 (一 次 电压 变换 表示 一 位 的 位 编码 方案 ) 

多 协议 标签 交换 (根据 标签 值 而 不 是 IP 地 址 来 交换 帧 的 结构 ) 

Microsoft 的 点 到 点 压缩 (用 于 PPP) 

Microsoft 的 点 到 点 加 密 (用 于 PPP) 

最 大 填充 值 (在 PPP 中 ， 填 充 字 节 的 最 大 数目 ) 

组 播 路 由 器 发 现 〈 用 于 发 现 链 路 上 相 邻 组 播 路 由 器 的 协议 ) 
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MRP 
MRRU 
MRU 
MS-CHAP 


MSDU 
MSK 
MSL 


NAT64 


NAT-PMP 


NAT-PT 
NAV 


NBMA 
NCoA 
NCP 
ND,NDP 


NEMO 
NIC 
NONCE 
NPT66 
NRO 
NS 


多 注册 协议 (用 于 注册 属性 的 I[EEE802.1ak 标准 ) 

多 链 路 最 大 接收 重 构 单元 (多 条 MP 链 路 重 构 之 后 的 最 大 接收 单元 ) 

最 大 接收 单元 (接收 方 能 够 接收 的 最 大 数据 包 / 消息 的 大 小 ) 

Microsoft 的 查询 - 握手 认证 协议 (包含 请 求 / 重 发 和 认证 响应 的 身份 验证 协 
议 ， 有 两 个 版 本 : MS-CHAPv1 与 MS-CHAPv2 ) 

MAC 服务 数据 单元 (用 于 MAC 层 以 上 802.11 帧 类 型 ) 

主 会 话 密 钥 (在 一 次 EAP 会 话 之 后 ， 用 支持 密 钥 派生 方法 生成 的 一 个 密 钥 ) 
最 大 段 生存 时 间 (在 TCP 中 ， 一 个 段 被 确定 为 无 效 之 前 在 网 络 中 存在 的 最 
长 时 间 ) 

信息 流 算 改 (对 消息 的 主动 修改 ; 通常 是 一 种 攻击 类 型 ) 

最 大 段 大 小 (在 TCP 中， 接收 方 能 够 接收 的 最 大 段 ; 通常 由 连接 建立 时 的 
一 个 选项 来 提供 ) 

最 大 传输 单元 (一 个 网 络 所 能 传输 的 最 大 帧 大 小 ) 

多 VLAN 注册 协议 (MRP 的 一 部 分 ， 用 于 注册 VLAN) 

邮件 交换 器 (为 采用 SMTP 交换 邮件 的 主机 指示 优先 顺序 的 DNS 资源 记录 ) 
网 络 访问 控制 〈 用 于 决定 一 台 设 备 是 否 能 获得 一 个 网 络 访问 许可 权 的 过 程 ) 
否定 确认 (表示 未 收 到 或 不 接受 的 标识 ) 

网 络 访问 保护 ( Microsoft 关于 NAC 的 一 个 变种 ; 首先 用 于 Windows Server 
2008 ) 

支持 端口 转换 的 NAT (支持 端口 重 写 的 NAT， 最 常见 的 NAT 形式 ) 

名 称 授权 指针 (与 基于 DNS 的 DDDS 一 同 使 用 的 DNS 资源 记录 ， 用 于 保 
持 重 写 规 则 ) 

新 访问 路 由 器 (FMIPv6 中 预计 不 久 将 会 使 用 的 路 由 器 ) 

网 络 地 址 转换 (在 IP 数据 报 中 重 写 地 址 的 机 制 ; 主要 用 于 减少 全 球 可 路 由 
IP 地 址 的 使 用 量 ; 通常 与 私有 IP 地 址 共同 使 用 ; 也 支持 防火 墙 功能 ) 
IPv6/IPv6 的 NAT (一 种 可 以 从 IPv4/ICMPv4 到 IPv6/ICMPv6 转换 的 NAT， 
反之 亦 然 ; 用 于 IPv6/IPv4 互 操 作 和 共存 ) 

NAT 端口 映射 协议 (Apple 公司 为 配置 某 些 NAT 设备 而 开发 的 IGD 替代 品 ; 
提供 远程 建立 端口 转发 的 能 力 ) 

支持 协议 转换 的 NAT ( 现 已 过 时 的 IPv4/IPv6 转换 方法 ) 

网 络 分 配 向 量 (在 802.11 DCF 中 ， 由 于 其 他 站 点 使 用 信道 而 造成 的 发 送 时 
间 延 迟 ) 

非 广 播 多 路 访问 (缺乏 广播 功能 的 多 用 户 网 络 ) 

新 移交 地 址 (在 FMIPv6 中 ， 从 NAR 获得 的 移交 地 址 ) 

网 络 控 制 协 议 (在 PPP 中 ， 用 于 建立 网 络 层 协议 ) 

邻居 发 现 (用 于 发 现 同一 链 路 上 的 邻居 并 获得 其 MAC 地 址 的 一 种 IPv6 方 
法 ; 工作 原理 与 ARP 类 似 ; 作为 ICMPv6 的 一 部 分 来 实现 ) 

网 络 移动 (一 种 路 由 器 与 网 络 改变 接 人 点 的 移动 ) 

网 络 接口 卡 〈 将 计算 机 接 入 网 络 的 设备 ) 

随机 数 〈 在 许多 加 密 协议 中 用 于 抵御 重 放 攻 击 的 随机 数 ) 

IPv6 到 IPv6 的 NAPT (具有 算法 地 址 和 端口 转换 的 NAT) 

号 码 资源 组 织 (CANN 的 地 址 支持 组 织 ) 

域名 服务 器 (拥有 其 他 域名 服务 器 名 称 的 DNS 资源 记录 ) 


NS 


NSCD 


NSEC 


NSEC3 


NSEC3PARAM 
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邻居 请 求 ( IPv6 邻居 发 现 的 一 部 分 ; 类 似 于 IPv4 的 ARP 请 求 ， 但 是 使 用 
IPv6 组 播 地 址 ; 采用 ICMPv6 来 实现 ) 

名 称 服务 缓存 进程 (为 DNS 以 及 UNIX 系统 上 的 其 他 解决 方案 提供 高 速 组 
存 的 进程 ) 

下 一 步 安全 (与 DNSSEC 一 同 使 用 的 DNS 资源 记录 ， 用 于 标明 顺序 列表 中 
的 下 一 条 资源 记录 ; 用 于 否认 存在 的 验证 ) 

下 一 步 安全 (版 本 3 ) (与 NESC 类 似 的 DNS 资源 记录 ， 但 包含 了 用 于 防御 
域名 枚 举 攻 击 的 散 列 函数 ) 

NSEC 参数 (与 DNSSEC 一 同 使 用 的 DNS 资源 记录 ， 负 责 持 有 NSEC3 散 
列 函数 的 参数 ) 

非 终端 的 NAPTR (在 DNS 中 ， 指 向 男 一 个 记录 域 的 名 称 授权 指针 ) 

网 络 时 间 协 议 (一 种 用 于 时 钟 同步 的 协议 ) 

邻居 不 可 达 检 测 (在 了 Pv6 邻居 发 现 中 ， 用 于 确定 一 个 邻居 是 否 仍 可 到 达 ) 
在 线 证 书 状 态 协 议 (一 种 用 于 检查 证 书 有 效 性 的 协议 ; 也 是 获得 某 个 CRL 
的 可 选择 方案 ) 

正 交 频 分 复 用 (一 种 复杂 的 调制 方案 ,在 某 个 指定 的 带宽 下 同时 调制 多 个 频 
率 的 载波 ， 以 实现 高 吞吐 量 ; 用 于 DSL、802.11a/g/n、802.16e， 以 及 包含 
LTE 的 高 级 蜂窝 数据 标准 ) 

对 象 标识 符 〈 一 个 数字 对 象 的 数值 标识 符 ; 用 于 证 书 编码 ) 

优化 链 路 状态 路 由 (Ad-hoc 网 络 中 一 个 标准 的 按 需 路 由 协议 ) 

带 外 (在 一 条 主 通信 信道 之 外 传输 的 信息 ) 

选项 请 求 选项 (在 DACP 中 ， 指 出 系统 需要 了 解 哪些 选项 已 被 支持 的 选项 ) 
开放 系统 互 连 ( ISO 为 开放 式 系统 定义 的 一 个 抽象 参考 模型 有 助 于 形成 协 
议 分 层 设计 的 基础 ) 

组 织 唯一 标识 符 (EEE 最 初 定义 的 MAC 层 地 址 前 级 格式 ) 

对 等 (系统 中 的 所 有 参与 者 既是 客户 机 又 是 服务 器 ) 

供应 商 汇聚 〈 供 应 商 所 提供 给 客户 的 前 缀 所 包含 的 IP 地 址 空间 ) 

PANA 认证 代理 (执行 认证 的 PANA 代理 ， 例 如 一 台 AAA 服务 器 ) 

PANA 客户 端 (请 求 认证 的 PANA 代理 ) 

端点 认证 数据 库 (与 IPsec 一 同 使 用 ， 包 含 关 于 每 个 对 等 节点 认证 信息 的 数 
据 库 抽象 ， 例 如 使 用 IKE 或 PSK， 以 及 相关 认证 数据 ) 

网 络 接 入 认证 信息 承载 协议 (EAP 的 UDP/IP 载体 ) 

密码 认证 协议 (使 用 明文 密码 的 协议 ; 容易 受到 中 间 人 攻击 或 窃听 ) 

防 回 绕 序列 号 (在 TCP 中， 借助 TSOPT 值 来 监控 序列 号 回 绕 的 方法 ) 

点 协调 功能 (针对 802.11， 将 内 容 无 关 和 基于 内 容 的 MAC 层 协议 相 结合 ; 
未 得 到 广泛 使 用 ) 

分 阶段 共存 操作 (802.11 接 人 点 切换 信道 宽度 的 一 种 方法 ， 以 减少 对 旧 设 备 
的 负面 影响 ) 

之 前 提供 的 移交 地 址 (在 FMIPv6 中 ， 从 PAR 获得 的 当前 或 之 前 的 移交 
地 址 ) 

端口 控制 协议 (IETF 用 于 配置 包含 SPNAT 与 NAT64 的 当前 NAT 协议 草案 ) 
协议 数据 单元 (用 于 描述 处 于 某 协 议 层 的 消息 ; 在 非 正式 的 情况 下 ， 有 时 与 
数据 包 、 帧 、 数 据 报 、 报 文 段 以 及 消息 等 名 词 通 用 ) 
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PEAP 
PEN 
PFC 
PFS 


PHB 
PHY 
PI 
PIM 
PIO 
PKC 


PKCS 
PKI 
PLCP 
PMTU 
PMTUD 
PNAC 


PoE 
POTS 
PPP 


PPPoE 
PPTP 

PRF 
PRNG,PRG 
PSK 

PSM 


PSMP 
PTB 


QAM 
QBSS 


QI 
QoS 


QPSK 


QQI 


Sg ee 


受 保护 的 EAP (一 种 在 TLS 中 封装 EAP 的 常用 方法 ; 与 EAP-TTLS 类 似 ) 
专用 企业 编号 (由 IANA 分 配 的 号 码 ， 企 业 可 用 其 生成 OID) 

协议 字段 压缩 (在 PPP 中 ， 删 除了 协议 字段 以 减少 开销 ) 

完全 正 向 保密 〈( 公 钥 加 密 的 一 种 属性 ， 一 个 密 钥 的 损害 至 多 造成 其 所 加 密 数 
据 的 损害 ， 而 不 会 影响 到 其 他 密 钥 以 及 它们 加 密 的 数据 ) 

每 跳 行为 《在 路 由 器 端 用 于 实现 DS 的 抽象 行为 ) 

物理 层 (OSI 中 的 一 层 ; 通常 描述 连接 器 、 频 率 、 编 码 以 及 调制 等 概念 ) 
提供 商 无 关 (用 户 所 拥有 的 IP 地 址 空间 ; 并 非 来 自 ISP 的 地 址 前 缀 ) 
协议 无 关 组 播 ( 非 本 地 组 播 路 由 协议 ， 可 利用 单 播 路 由 协议 的 数据 与 操作 ) 
前 级 信息 选项 (在 ICMPv6 中 ， 携 带 一 个 IP 地址 前 级 的 选项 ) 

ARER (一 个 数字 对 象 ， 包 括 了 CA 颁发 的 公 钥 和 签名 ， 以 及 各 种 使 用 准 
则 和 参数 ) 

公 钥 加 密 标 准 〈 用 于 编码 与 表示 公 钥 及 相关 材料 的 方法 ) 

公 钥 基础 设施 (负责 管理 和 分 发 公 钥 的 系统 ) 

物理 层 会 聚 程序 ( 802.11 用 于 编码 与 决定 帧 类 型 及 无 线 电 参数 的 方法 ) 

路 径 MTU (在 发 送 方 到 接收 方 的 路 径 上 所 经 过 链 路 的 最 小 MTU 值 ) 

路 径 MTU 发 现 (确定 PMTU 的 过 程 ; 通常 依赖 于 ICMP PTB 消息 ) 

基于 端口 的 网 络 访问 控制 (网 络 访问 控制 的 一 个 版 本 ,利用 其 中 附带 的 物理 
端口 信息 做 出 授权 决定 ) 

以 太 网 供电 (通过 以 太 网 布线 为 设备 供电 ) 

普通 老式 电话 业务 (传统 的 模拟 电话 服务 ) 

点 对 点 协议 (一 个 链 路 层 配置 与 数据 封装 协议 ， 能 够 承载 多 种 网 络 层 协议 ， 
并 能 够 使 用 多 种 底层 物理 链 路 ) 

以 太 网 上 的 PPP《〈 在 以 太 网 链 路 上 建立 一 条 PPP 关联 的 方法 ) 

点 对 点 隧道 协议 (Microsoft 的 链 路 层 隧 道 协 议 ) 

伪 随 机 函数 族 (利用 多 项 式 时 间 算 法 不 能 与 真 随机 函数 区 别 的 一 组 函数 ; 在 
非 正式 情况 下 有 时 也 表示 一 个 此 类 型 的 函数 ) 

伪 随 机 生成 器 (一 个 数学 函数 ， 用 于 计算 一 系列 随机 出 现 的 数值 ) 

预 共享 密 钥 (预先 设置 加 密 密 钥 ; 不 使 用 动态 密 钥 交换 协议 ) 

省 电 模 式 (802.11 的 一 种 模式 ， 设 备 在 空闲 时 “睡眠 "， 延 长 从 AP 接收 轮 
询 信息 的 时 间 ) 

省 电 多 重 轮 询 (APSD 的 双向 版 本 ，802.11n 的 一 部 分 ) 

数据 包 太 大 (一 个 必需 的 ICMP 目的 地 不 可 达 分 片 ， 或 一 个 指明 IPv6 数据 
包 远 大 于 下 一 跳 MTU 的 大 小 的 包 太 大 消息 ) 

正 交 幅度 调制 (相位 和 幅度 调制 的 组 合 ) 

基于 QoS 的 BSS (一 种 利用 802.1le 或 802.1ln 的 QoS 功能 增强 的 802.11 
基本 服务 集 ) 

查询 间隔 (在 IGMP 和 MLD 中 ,普通 查询 之 间 的 时 间 间 隔 ) 

服务 质量 (描述 如 何 处 理 流量 的 通用 术语 ， 通 常 基于 不 同 的 配置 参数 有 更 好 
或 更 坏 的 延迟 或 丢弃 优先 级 ) 

正 交 相 移 键 控 (一般 利用 四 个 信号 相位 对 每 个 符号 进行 两 位 调制 ， 在 更 高 级 
的 版 本 中 每 个 符号 可 能 对 应 更 多 位 ) 

查询 器 查询 间隔 (在 IGMP 和 MLD 中 ,发 送 普通 查询 报 文 之 间 的 时 间 ， 目 


RRset 
RRSIG 


RSA 
RSN 
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前 非 查询 组 播 路 由 器 采用 最 近 接 收 到 的 QQI 值 作 为 其 QI 值 ) 
查询 器 查询 间隔 代码 (在 IGMP All MLD 消息 中 ，QQI 值 的 编码 ) 

查询 响应 间隔 (E IGMP A MLD 中 ， 人 允许 接收 方 发 送 一 个 查询 响应 的 最 大 
时 间 ) 

查询 器 鲁 棒 性 变量 (在 IGMP 和 MLD F, 设置 的 重 传 次 数 ) 

快速 启动 (TCP 协议 中 的 实验 性 修改 ， 为 沿途 设备 的 快速 启动 行为 提供 
支持 ) 

基于 QoS 的 STA (一 种 支持 QoS 功能 的 802.11 STA) 

路 由 器 通告 (指明 链 路 上 存在 一 个 路 由 器 邻居 的 消息 ; 使 用 ICMP) 

远程 认证 氢 入 用 户 服务 协议 (一 种 承载 AAA 数据 的 常用 协议 ) 

中 继 代理 信息 选项 (在 DHCPv6 中 ， 中 继 用 来 插入 各 种 信息 位 的 选项 ) 

反 向 地 址 解析 协议 (提供 网 络 层 到 MAC 层 地 址 映射 的 协议 ) 

远程 访问 服务 器 (一 台 服 务 器 ， 用 于 处 理 远 程 用 户 的 身份 认证 、 访 问 控制 等 ) 
Rivest 密码 4 (一 种 流行 的 对 称 密 钥 加 密 方案 ， 由 Ron Rivest 设计 ) 
路 由 器 发 现 (定位 一 个 近 端 路 由 器 的 过 程 ; 使 用 ICMP) 

返回 的 数据 (DNS 协议 的 一 部 分 ， 用 于 保存 返回 的 数据 ) 

递归 DNS 服务 器 〈 在 路 由 器 通告 中 使 用 ; 指明 DNS 服务 器 地 址 ) 

随机 早期 检测 (一 种 主动 队列 管理 方案 ， 当 持续 的 拥塞 出 现 增长 时 ， 以 更 大 
的 概率 来 标记 或 丢弃 数据 包 ) 

征求 意见 (由 IETF 发 布 的 文件 ; 有 些 已 成 为 标准 ) 

路 由 器 端口 组 管理 协议 (Cisco 用 于 实现 IGMP 侦 听 的 协议 ) 

路 由 头 部 (IPv6 用 于 改变 流量 传输 路 径 的 扩展 头 部 ) 

带 界定 参数 的 速率 减 半 (在 TCP 中 ，FACK 算法 的 一 个 改进 版 本 ， 在 判断 包 
丢失 后 协助 重 传 更 加 均匀 地 分 布 于 一 个 RTT 周期 中 ) 

路 由 信息 协议 (小 型 组 织 的 路 由 协议 ; 原始 版 本 并 不 支持 子 网 掩 码 ) 

地 区 性 Internet 注册 机 构 (为 世界 某 些 地 区 分 配 地 址 空间 ) 

路 由 优化 (在 简化 的 MIP 中 ， 通 过 间接 的 转折 (dogleg) 路 径 来 改善 路 由 ) 
地 址 空间 外 运行 (推动 IPv6 创建 与 导致 开发 CIDR 方案 的 一 个 问题 ) 

和 鲁 棒 性 报头 部 压缩 (协议 头 部 压缩 的 当前 一 代 标 准 ) 

会 合 点 〈 与 组 播 路 由 一 同 使 用 ， 负 责 交 换 组 信息 ) 

远程 过 程 调 用 (支持 远程 处 理 程序 过 程 调用 的 框架 ) 

反 向 路 径 转 发 (为 了 避免 环 路 ， 组 播 路 由 器 发 起 的 一 次 RPF 检查 ， 以 确保 
一 个 组 播 数据 报 已 到 达能 够 抵达 发 送 方 的 接口 ) 

路 由 策略 规范 语言 (用 于 表达 路 由 策略 的 一 种 语言 ， 例 如 与 AS 对 应 的 网 络 
前 级 ) 

资源 记录 (一 种 典型 的 信息 块 ， 为 一 个 域名 所 拥有 ， 并 通过 DNS 分 发 ) 
返回 路 由 程序 (与 MIPv6 一 同 使 用 的 检测 ， 以 保证 移动 节点 是 可 信 的 ， 包 
含 了 一 个 家 乡 地 址 检测 与 一 个 移交 地 址 检测 ) 

资源 记录 集 (具有 相同 域名 所 有 者 或 类 的 DNS 资源 记录 集合 ) 

资源 记录 签名 (RH DNSSEC 的 资源 记录 ， 持 有 一 个 资源 记录 集 的 签名 ) 
路 由 器 请 求 (一 个 ICMP 消息 ， 包 含 一 个 路 由 器 生成 的 响应 ) 

Rabin, Shamir, Adelman (最 流行 的 公 钥 加 密 算法 ) 

强健 安全 网 络 (针对 IEEE 802.11i/WPA 的 安全 改进 ; 已 包含 于 802.11 标准 中 ) 
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RSNA 
RST 
RSTP 
RTO 
RTS 

RTT 
RTTM 
RTTVAR 
RTX 

RW 


SA 


SACK 
SAD 


SAE 
SAP 
SCSV 


SCTP 
SCVP 


SDID 
SDLC 
SDO 
SDP 
SEND 
SEP 
SFD 
SG 
SHA 
SIFS 
SUT 


SIP 
SLAAC 


SLLAO 
SMSS 
SMTP 
SNA 


45 (tO 


RSN 关联 (RSN 的 完整 利用 /实施 ) 

重 置 (一 个 TCP 头 部 位 和 段 类 型 ， 能 够 导致 一 次 TCP 连接 终止 ) 

快速 生成 树 协议 (STP 的 减少 延迟 版 本 ) 

重 传 超 时 (从 数据 被 认为 丢失 到 重 传 的 时 间 ) 

请 求 发 送 (表明 希望 发 送 后 续 消 息 的 消息 ) 

往返 时 间 (从 通信 对 方 获得 一 个 响应 的 最 短 时 间 ) 

往返 时 间 测 量 (对 往返 时 间 的 一 次 瞬时 估计 ) 

往返 时 间 差 异 ( 在 TCP 中 ， 一 个 连接 的 往返 时 间 偏 差 的 平均 时 间 估计 ) 
重 传 (重新 发 送 数据 ) 

重启 窗口 (在 TCP 中 ,在 经 过 一 段 空 闲 期 后 ，TCP 重新 开始 发 送 时 的 拥塞 
窗口 数值 ) 

安全 关联 (在 IPsec 中 ， 对 等 方 之 间 与 状态 相关 的 单 向 关联 ; 包括 协商 的 密 
钥 、 算 法 等 ; 一 个 安全 关联 可 以 被 单 播 或 组 播 ) 

选择 性 确认 (TE TCP 中 ， 表 明正 确 接收 序列 外 数据 的 选项 ) 

安全 关联 数据 库 (在 IPsec 中 ,包含 每 个 活动 的 安全 关联 信息 的 数据 库 抽象 ; 
通过 SPI 进行 逻辑 索引 ) 

对 等 同时 认证 (与 802.11s 一 同 使 用 的 认证 形式 ) 

会 话 通 告 协议 (携带 实验 性 的 组 播 会 话 通告 ;参见 SDP) 

言 号 密码 套件 值 (在 TLS 中 ， 密 码 套 件 值 指明 不 是 一 个 密码 套件 ， 而 是 一 
组 可 选 功能 或 选项 的 特殊 集合 ) 

流 控制 传输 协议 (一 种 可 代替 TCP 的 可 靠 传 输 协议 ， 它 不 执行 严格 的 顺序 ， 
支持 多 个 子 流 和 端点 的 地 址 变更 ) 

基于 服务 器 的 证 书 验证 协议 (一 种 支持 证 书 的 委托 路 径 发 现 与 委托 路 径 验证 
的 协议 ) i 

签名 域 标识 符 (与 DKIM 一 同 使 用 ， 签 名 者 域 的 名 称 ) 

同步 数据 链 路 控制 (HDLC 协议 的 前 身 ，SNA 的 链 路 层 ) 

标准 制定 组 织 (包括 IEEE, IETF, ISO, ITU, 3GPP, 3GPP2) 

会 话 描述 协议 (一 种 描述 多 媒体 会 话 的 协议 ) 

安全 邻居 发 现 (一 个 使 用 CGA 的 邻居 发 现 的 安全 变种 ) 

安全 人 口 点 (在 DNSSEC 中 ， 指 明 一 条 包含 KSK 的 DNSKEY 资源 记录 ) 
帧 起 始 分 隔 符 (在 链 路 层 协议 数据 单元 中 指明 一 个 帧 起 始 部 分 的 位 模式 ) 
安全 网 关 (与 IPsec 一 同 使 用 ， 终 止 IPsec 协议 的 系统 ， 通 常 位 于 网 络 边缘 ) 
安全 散 列 算法 (一 种 散 列 算法 ， 适 用 于 保证 消息 的 完整 性 ) 

短 帧 间 间 隔 (802.11 帧 与 其 ACK 之 间 的 最 短 时 间 间 隔 ) 

无 状态 IP/ICMP 转换 (一 种 用 于 IPv4 与 IPv6 转换 的 框架 ， 包 括 针 对 ICMP 
转换 、NAT64 以 及 DNS64 的 特殊 规则 ) 

会 话 发 起 协议 (通用 的 信 令 协议 ; 与 VoIP 一 同 使 用 ) 

无 状态 地 址 自动 配置 (一 种 节点 能 够 自主 地 配置 其 IP 地 址 的 机 制 ; 通常 应 
用 于 IPv6 节点 ) 

源 链 路 层 地 址 选项 (在 ICMPv6 中 ， 用 于 携带 发 送 方 链 路 层 地 址 的 选项 ) 

发 送 方 的 MSS (从 发 送 方 的 角度 评价 一 个 连接 的 MSS) 

简单 邮件 传输 协议 (在 邮件 传输 代理 之 间 传 送 电 子 邮件 的 协议 ) 
系统 网 络 体系 结构 (IBM 公司 的 网 络 体系 结构 ) 


m iB 


SNAP 
S-NAPTR 


SNMP 
SOA 
SOAP 


SPD 


SPI 


SPNAT,CGN,LSN 


SRP 


SRTP 


SRTT 
SSDP 


SSH 
SSID 
SSL 
SSM 
STA 
STP 
STUN 


SWS 


SYN 
TCP 


TCP-AO 
TDES,3DES 
TDM 

TFC 


TFRC 
TFTP 


TKIP 
TLD 
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子 网 访问 协议 (针对 802.2 封装 的 IEEE 术语 ， 很 少 用 于 TCP/IP 网 络 ) 

直接 NAPTR (简化 的 NAPTR， 将 AUS 直接 映射 到 结果 ， 未 使 用 正则 表达 
AEM) l 

简单 网 络 管理 协议 (网 络 设备 的 状态 报告 和 配置 设 定 ; 通常 使 用 UDP/IP) 
授权 启动 (指明 一 个 区 域 的 元 数据 的 DNS 资源 记录 ) 

简单 对 象 访问 协议 (使 用 XML 的 Web 服务 应 用 程序 协议 ,提供 类 似 于 RPC 
的 功能 ; SOAP 已 不 再 是 一 个 缩写 ) 

安全 策略 数据 库 (与 IPsec 一 同 使 用 ， 包 含 如 何 处 理 流量 (例如 丢弃 、 绕 过 
或 保护 ) 的 安全 策略 的 数据 库 抽象 ) 

安全 参数 索引 (在 IPsec H, SAD 的 一 条 逻辑 索引 ， 指 示 32 位 或 64 位 的 安 
全 参数 ) 

服务 提供 商 (“ 大 规模 ”) NAT (一 种 NAT 部 署 方案 ， 由 服务 提供 商 代替 客 
户 执行 地 址 转换 ) 

安全 远程 口令 (一 种 基于 口令 的 强健 密 钥 协 商 协议 ; 得 到 各 种 安全 协议 的 支 
持 , 例如 TLS 和 EAP) 

安全 实时 协议 (一 种 基于 UDP/IP 实时 协议 的 安全 变种 ; 通常 用 来 承载 多 媒 
体 信息 ) 

平滑 的 往返 时 间 (在 TCP 中 ， 对 于 一 个 连接 RTT 的 平均 时 间 估 计 ) 

简单 服务 发 现 协议 (一 种 由 IETEF 指定 的 分 布 式 服务 发 现 协议 ， 设 计 用 于 局 
域 网 与 住宅 网 络 ， 由 UPnP 使 用 ) 

安全 外 壳 协 议 (安全 的 远程 登录 / 执行 协议 ; 也 支持 其 他 协议 的 隧道 ) 
服务 集 标识 符 ( 802.11 网 络 名 称 ) 

安全 套 接 字 层 (TCP 之 上 的 负责 加 密 与 完整 性 保护 的 层 ; TLS 的 前 身 ) 

单 源 组 播 (只 有 一 方 能 够 向 一 个 特定 组 发 送 流 量 的 组 播 ) 

站 (一 个 接 入 点 或 相关 无 线 主机 的 IEEE 802.11 术语 ) 

生成 树 协 议 (网 桥 和 交换 机 之 间 使 用 的 协议 ， 以 避免 产生 环 路 ) 

NAT 会 话 穿 越 工 具 (一 种 客户 机 /服务 器 协议 ， 当 一 个 流量 流 穿越 NAT 时 
协助 确定 它 的 地 址 与 端口 号 ) 

糊涂 窗口 综合 征 (在 基于 窗口 的 流量 控制 协议 中 ， 由 于 使 用 的 窗口 较 小 ， 仅 
能 交换 少量 数据 的 不 理想 情况 ) 

同步 (一 个 TCP 头 部 位 ， 描 述 在 TCP 连接 上 发 送 的 首 个 段 类 型 ) 

传输 控制 协议 〈 一 种 面向 连接 的 无 消息 边界 的 可 靠 流 协议 ， 包 括 了 流量 与 拥 
塞 控制 ) 

TCP 认证 选项 (在 TCP 中 ， 一 种 基于 灵巧 算法 的 机 制 ， 用 于 抵御 MSM 攻击 ) 
=E DES (执行 三 轮 DES 的 加 密 ， 生 成 一 个 长 度 为 112 位 的 有 效 密 钥 ) 

时 分 多 路 复 用 (通过 分 配 独立 使 用 的 时 间 片 来 实现 共享 ) 

流量 机 密 性 (IPSec 中 伪造 流量 的 方法 ， 包 括 填 充 和 生成 虚假 的 包 ， 甚 至 可 
以 是 加 密 的 流量 ) 

TCP 友好 速率 控制 (控制 一 个 协议 发 送 速率 的 方法 ， 以 避免 在 类 似 的 工作 环 
境 中 出 现 TCP 流 不 公平 竞争 的 情况 ) 

简单 文件 传输 协议 (基于 UDP/IP 的 简单 传输 协议 ) 

临时 密 钥 完 整 性 协议 (用 WPA 替换 WEP 加 密 算法 ) 

顶级 域名 (一 个 顶级 域名 ,例如 EDU、COM、UK、ZA) 
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TLS 
TLV 
ToS 


TS 


TSER,TSecr 
TSF 
TSIG 


TSOPT 
TSPEC 
TSV 


TTL 
TURN 


UEQM 
ULA 
U-NAPTR 
U-NII 
UNSAF 


传输 层 安全 (基于 由 Netscape 开发 的 SSL 协议 ) 

类 型 - 长 度 - 值 (在 协议 中 使 用 ; 表示 一 个 类 型 、 变 长 值 的 长 度 以 及 值 ) 
服务 类 型 (指示 服务 类 型 的 IPv4 头 部 字 节 的 原 有 名 称 ; 已 被 DS 字段 和 ECN 
位 代替 ) 

流量 选择 器 (与 IKE 一 同 使 用 ， 用 于 标识 流量 的 规则 ， 例 如 IP 地 址 范围 、 
端口 号 等 ) 

时 间 戳 回 显 重 试 (在 TCP 中 ， 用 于 向 对 方 回 送 TSV 值 的 TSOPT 部 分 ) 

时 间 同 步 功能 (在 802.11 BSS 中 建立 一 个 通用 时 间 ) 

事务 签名 (用 于 保障 个 人 DNS 事务 安全 的 签名 ， 并 不 从 它 的 来 源 处 获得 
内 容 ) 

时 间 戳 选项 (在 TCP 中 , 包括 TSV 与 TSER 值 的 选项 ) 

流量 规范 (为 802.11 QoS 指明 流量 参数 的 一 个 结构 ) 

时 间 戳 值 (在 TCP 中 ,用 于 识别 发 送 方 时 间 的 TSOPT 部 分 ， 也 用 于 RTTM 
与 PAWS 中 ) 

生存 期 (IPv4 头 部 字段 ， 指 明 一 个 数据 报 被 允许 经 过 的 剩余 路 由 器 数目 ) 
AF NAT 中 继 的 穿越 (通过 第 三 方 在 两 台 主机 之 间 中 继 信息 的 协议 ， 否 则 
由 于 一 个 或 多 个 NAT 存在 而 导致 两 台 主 机 无 法 通信 ) 

时 间 等 待 错误 (在 TCP 中 ,由 在 TIME-WAIT 状态 下 接收 的 某 些 字段 造成 的 
错误 状态 ) 

传输 机 会 (在 802.11 中 ， 一 种 允许 站 点 发 送 一 个 或 多 个 帧 的 模式 ) 

文本 (DNS 资源 记录 所 携带 的 描述 性 文字 ; 被 DKIM 使 用 ) 

基于 单 播 前 级 的 组 播 地 址 (基于 分 配 的 单 播 前 级 派生 的 组 播 地 址 ) 

单 向 链 路 (只 提供 一 个 方向 通信 的 链 路 ) 

用 户 数 据 报 协议 (一 种 尽力 而 为 的 消息 协议 ， 带 有 消息 边界 ， 不 支持 拥塞 或 
流量 控制 ) 

不 平等 调制 (对 不 同 的 数据 流 同 时 使 用 不 同 的 调制 方案 ) 

唯一 本 地 IPv6 单 播 地 址 (IPv6 使 用 的 私有 地 址 ， 从 FC00::/7 前 级 分 配 ) 
启用 URI 的 NAPTR (简化 的 NAPTR， 人 允许 使 用 有 限 的 正则 表达 式 ) 

无 须 许 可 的 国家 信息 基础 设施 (在 世界 大 部 分 地 区 无 须 许可 的 无 线 电 频谱 ) 
单 边 的 自 地 址 确定 (确定 如 何 识别 通过 NAT 的 流量 的 启发 式 尝 试 ; 它 是 一 
个 脆弱 的 过 程 ， 类 似 ICE 技术 ， 已 被 推荐 成 为 其 替代 品 ) 

用 户 优先 级 ( 802.11 优先 级 ; 基于 来 自 802.1d 的 相同 术语 ) 

通用 即 插 即 用 (一 种 针对 家 庭 用 户 的 设备 与 服务 发 现 的 协议 框架 ; 由 UPnP 
研讨 会 标准 化 ) 

紧急 机 制 〈 在 TCP 中 ， 标 记 和 识别 “紧急 ”信息 的 方法 ; 不 建议 使 用 ) 
统一 资源 标识 符 (标识 Internet 上 的 名 称 或 资源 的 字符 串 ， 包 括 URL 和 
URN) 

统一 资源 定位 器 (一 个 非 正式 的 “WWW 地 址 ”) 

统一 资源 名 称 ( 使 用 URN 方案 的 一 个 URI, 但 并 不 意味 着 资源 可 用 ) 
特定 用 途 的 根 密 钥 OAF EMSK 的 密 钥 ， 用 于 特殊 的 目的 ) 

世界 协调 时 间 (NTP 与 其 他 协议 使 用 的 标准 时 间 ; 可 与 GMT 有 效 地 互 换 ， 
但 存在 一 些 技 术 差 异 ) 

用 户 超时 (在 TCP 中 ， 发 送 方 在 放弃 一 条 连接 之 前 等 待 尝 试 重 传 的 最 大 时 间 ) 


WMM 
WoL 
WPA 
WPAD 
WRED 


WSCALE,WOPT,WSOPT 
WWW 

X.25 

XML 


XMPP 


ZSK 
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虚 电 路 (一 条 模拟 的 专用 通信 路 径 ) 

虚拟 局 域 网 (通常 用 于 在 共享 的 线路 上 模拟 多 个 不 同 的 局 域 网 ) 

可 变 长 度 子 网 掩 码 (在 相同 环境 中 近 端 使 用 的 不 同 长 度 的 子 网 掩 码 ) 

IP 语音 (在 IP 网 络 上 传输 语音 ,通常 包含 SIP 信号 ) 

虚拟 专用 网 络 (实际 上 隔离 的 网 络 ; 通常 加 密 ) 

万 维 网 联盟 (负责 制定 Web 标准 的 SDO， 例 如 XML) 

广域网 (连接 在 地 理 上 分 散 的 站 点 的 网 络 ， 通 常 包含 多 个 管理 机 构 ) 

有 线 等 效 加 密 (原始 的 Wi-Fi 加 密 ; 被 证 实 非 常 脆弱 ) 

封装 的 ESP (IPsec 中 ， 在 ESP 前 加 入 一 个 头 部 的 方法 ， 用 于 表明 以 下 流量 
是 否 经 过 加 密 或 认证 ; 有 利于 中 间 件 的 检查 ) 

无 线 保 真 (IEEE 802.11 无 线 局 域 网 标准 ) 

微波 存 取 全 球 互通 技术 (IEEE 802.16 无 线 宽带 标准 ) 

知名 前 缀 (一 种 基于 校 验 和 的 中 性 IPv6 前 级 ，64:ff9b::/ 96， 用 于 IPv4 5 
IPv6 地 址 间 的 算法 映射 ) 

无 线 局 域 网 (一 种 无 线 局 域 网 ， 例 如 Wi-Fi) 

Wi-Fi 多 媒体 ( 802.11e 协议 QoS 功能 的 子 集 ， 目 前 已 用 于 802.11n) 
局 域 网 唤醒 〈 保 持 “ 睡 眠 ”模式 ， 直 到 接收 到 一 个 特殊 数据 包 时 唤醒 的 方法 ) 
Wi-Fi 保护 访问 (802.11 的 加 密 方法 ) 

Web 代理 自动 发 现 协 议 (一 种 用 于 发 现 邻 近 已 存在 的 WWW 代理 的 协议 ) 

加 权 随 机 早期 检测 (一 种 早期 随机 检测 ， 标 记 / 丢弃 的 概率 取决 于 流量 类 别 
与 权 值 分 配 ) 

窗口 缩放 选项 (TCR 中 的 一 个 选项 ， 指 明 应 用 于 窗口 大 小 字段 的 比例 因子 ) 
万 维 网 (使 用 HTTP/TCP/IP 协议 集 的 网 络 数据 环境 ) 

ITU-T 建议 X.25 (一 个 ITU-T 标准 化 的 分 组 交换 网 络 标准 ， 涵 盖 OSI 的 1 
至 3 层 ; 在 TCP/IP 技术 广泛 使 用 前 最 流行 的 分 组 交换 技术 ) 

可 扩展 标记 语言 (将 文件 编码 成 机 器 可 读 形式 的 规则 集合 ; 广泛 用 于 Web 
服务 ) 

可 扩展 的 报 文 和 现场 协议 (一 个 开放 的 、 可 扩展 的 、 基 于 HTML 的 协议 ， 
用 于 交换 消息 、 联 系 人 列表 等 信息 ) 

区 域 签名 密 钥 (一 个 与 DNSSEC 一 同 使 用 的 密 钥 ， 用 于 签名 区 域内 容 ， 通 
常用 一 个 密 钥 签名 密 钥 来 进行 签名 ) 
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“我 认为 本 书 之 所 以 领先 群 伦 、 独 一 无 二 ， 是 源 于 其 对 细节 的 注重 和 对 历史 的 关注 ” 书 中 介绍 了 计 - 
算 机 网 络 的 背景 知识 ， 并 提供 了 解决 不 断 演变 的 网 络 问题 的 各 种 方法 。 本 书 一 直 在 不 懈 努 力 以 获得 精确 的 由 
答 委 和 探索 剩余 的 问题 域 。 对 于 致力 于 完善 和 保护 互联 网 运营 或 探究 长 期 存在 的 问题 的 可 选 解决 方案 的 工 J 
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— Vint Cerf， 互 联网 发 明 人 之 一 、 图 灵 奖 获得 者 、 谷 歌 公司 副 总 裁 兼 首席 互联 网 宣传 官 


《TCP/IP 详 解 》 是 已 故 网 络 专家 、 著 名 技术 作家 W. Richard Stevens 的 传世 之 作 ， 内 容 详尽 且 极 具 权 
威 ， 被 誉 为 TCP/IP 领 域 的 不 朽 名 著 。 

本 书 是 《TCP/IP 详 解 》 第 1 卷 的 第 2 版 ， 主 要 讲述 TCP/IP 协 议 ， 结 合 大 量 实例 讲述 TCP/IP 协 议 族 的 定义 
原因 ， 以 及 在 各 种 不 同 的 操作 系统 中 的 应 用 及 工作 方式 。 第 2 版 在 保留 Stevens 卓 越 的 知识 体系 和 写作 风格 的 
基础 上 ， 新 加 入 的 作者 Kevin R. Fall 结 合 其 作为 TCP/IP 协 议 研究 领域 领导 者 的 尖端 经 验 来 更 新 本 书 ， 反 映 了 
最 新 的 协议 和 最 佳 的 实践 方法 。 首 先 ， 他 介绍 了 TCP/IP 的 核心 目标 和 体系 结构 概念 ， 展 示 了 它们 如 何 能 连接 
不 同 的 网 络 和 支持 多 个 服务 同时 运行 。 接 着 ， 他 详细 解释 了 IPv4 和 IPv6 网 络 中 的 互联 网 地 址 。 然 后 ， 他 采用 
自 底 向 上 的 方式 介绍 TCP/IP 的 结构 和 功能 : 从 链 路 层 协议 ( 如 Ethernet 和 Wi-Fi ) ， 经 网 络 层 、 传 输 层 到 应 
用 层 。 

书 中 依次 全 面 介 绍 了 ARP、DHCP、NAT、 防 火 墙 、ICMPv4/ICMPv6、 广 播 、 组 播 、UDP、DNS 等 ， 
并 详细 介绍 了 可 靠 传输 和 TCP， 包 括 连接 管理 、 超 时 、 重 传 、 交 互 式 数据 流 和 拥塞 控制 。 此 外 ， 还 介绍 了 安 
全 和 加 密 的 基础 知识 ， 阐 述 了 当前 用 于 保护 安全 和 隐私 的 重要 协议 ， 包 括 EAP、IPsec、TLS、DNSSEC 和 
DKIM。 

本 书 适合 任何 希望 理解 TCP/IP 实 现 原理 的 人 阅读 ， 更 是 TCP/IP 领 域 研究 人 员 和 开发 人 员 的 权威 参考 书 。 
无 论 你 是 初学 者 还 是 功底 深厚 的 网 络 领域 高 手 ， 本 书 都 是 案头 必 备 ， 将 帮助 你 更 深入 和 直观 地 理解 整个 协议 
族 ， 构 建 更 好 的 应 用 和 运行 更 可 靠 、 更 高 效 的 网 络 。 
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